Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c268a968469ce5bdb163868ef7a39513f3ce100500f548076454fb362101818f
 size 1001465824

 version https://git-lfs.github.com/spec/v1
+oid sha256:6657a226cc0c3e14f29fa370deb9e3caa775840677e244efcc32831037a36d5a
 size 1001465824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69ff0ecbc3dd55945258109ca348b084fe566682a070abd9553684ae9db17483
 size 509176980

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c018df9e83db2d92c241d99012be2dcc0322a1f2d180ac4b86bd9a7a2f4541b
 size 509176980

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b17708d9648299288e0c2b2842c837451cc839482b30f36568b7b117b8a6cbe5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:df1f766df65bea57494f01e4f4c52272697127fbef8384c36b4d737b1bb7c772
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b2ff91019f251b72cdf781986424ccdfd5ceb7ae633fedb2bccce31d3f61847
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:970068ebf9c0dc6a40c93653c563bb0b2ba5296a6c46496b504a3f1343bf3a62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.47890180349349976,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.42016806722689076,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 1.48,
       "eval_steps_per_second": 0.373,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.57603212935168e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.14084061980247498,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.6302521008403361,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.48,
       "eval_steps_per_second": 0.373,
       "step": 100
+    },
+    {
+      "epoch": 0.42436974789915966,
+      "grad_norm": 4.169086933135986,
+      "learning_rate": 5.8634982137913465e-05,
+      "loss": 0.5264,
+      "step": 101
+    },
+    {
+      "epoch": 0.42857142857142855,
+      "grad_norm": 1.9985085725784302,
+      "learning_rate": 5.772710650702723e-05,
+      "loss": 0.1248,
+      "step": 102
+    },
+    {
+      "epoch": 0.4327731092436975,
+      "grad_norm": 0.057010602205991745,
+      "learning_rate": 5.681848531245195e-05,
+      "loss": 0.0331,
+      "step": 103
+    },
+    {
+      "epoch": 0.4369747899159664,
+      "grad_norm": 0.07370073348283768,
+      "learning_rate": 5.590936696214972e-05,
+      "loss": 0.0401,
+      "step": 104
+    },
+    {
+      "epoch": 0.4411764705882353,
+      "grad_norm": 0.07470442354679108,
+      "learning_rate": 5.5e-05,
+      "loss": 0.0451,
+      "step": 105
+    },
+    {
+      "epoch": 0.44537815126050423,
+      "grad_norm": 0.07614938914775848,
+      "learning_rate": 5.409063303785029e-05,
+      "loss": 0.05,
+      "step": 106
+    },
+    {
+      "epoch": 0.4495798319327731,
+      "grad_norm": 0.07786896824836731,
+      "learning_rate": 5.318151468754805e-05,
+      "loss": 0.0505,
+      "step": 107
+    },
+    {
+      "epoch": 0.453781512605042,
+      "grad_norm": 0.07709647715091705,
+      "learning_rate": 5.227289349297277e-05,
+      "loss": 0.0517,
+      "step": 108
+    },
+    {
+      "epoch": 0.4579831932773109,
+      "grad_norm": 0.07772062718868256,
+      "learning_rate": 5.136501786208654e-05,
+      "loss": 0.0539,
+      "step": 109
+    },
+    {
+      "epoch": 0.46218487394957986,
+      "grad_norm": 0.07466543465852737,
+      "learning_rate": 5.045813599902173e-05,
+      "loss": 0.0563,
+      "step": 110
+    },
+    {
+      "epoch": 0.46638655462184875,
+      "grad_norm": 0.07618583738803864,
+      "learning_rate": 4.955249583622455e-05,
+      "loss": 0.0543,
+      "step": 111
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.0762595385313034,
+      "learning_rate": 4.8648344966672767e-05,
+      "loss": 0.0534,
+      "step": 112
+    },
+    {
+      "epoch": 0.47478991596638653,
+      "grad_norm": 0.07716407626867294,
+      "learning_rate": 4.774593057618621e-05,
+      "loss": 0.0501,
+      "step": 113
+    },
+    {
+      "epoch": 0.4789915966386555,
+      "grad_norm": 0.07322922348976135,
+      "learning_rate": 4.6845499375848686e-05,
+      "loss": 0.0509,
+      "step": 114
+    },
+    {
+      "epoch": 0.4831932773109244,
+      "grad_norm": 0.0707123726606369,
+      "learning_rate": 4.5947297534559625e-05,
+      "loss": 0.0482,
+      "step": 115
+    },
+    {
+      "epoch": 0.48739495798319327,
+      "grad_norm": 0.07027147710323334,
+      "learning_rate": 4.5051570611733976e-05,
+      "loss": 0.0489,
+      "step": 116
+    },
+    {
+      "epoch": 0.49159663865546216,
+      "grad_norm": 0.06395595520734787,
+      "learning_rate": 4.415856349016859e-05,
+      "loss": 0.045,
+      "step": 117
+    },
+    {
+      "epoch": 0.4957983193277311,
+      "grad_norm": 0.06482091546058655,
+      "learning_rate": 4.326852030909393e-05,
+      "loss": 0.0441,
+      "step": 118
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.06443566083908081,
+      "learning_rate": 4.238168439742867e-05,
+      "loss": 0.0436,
+      "step": 119
+    },
+    {
+      "epoch": 0.5042016806722689,
+      "grad_norm": 0.06711577624082565,
+      "learning_rate": 4.149829820725605e-05,
+      "loss": 0.0436,
+      "step": 120
+    },
+    {
+      "epoch": 0.5084033613445378,
+      "grad_norm": 0.05877511948347092,
+      "learning_rate": 4.0618603247539916e-05,
+      "loss": 0.0432,
+      "step": 121
+    },
+    {
+      "epoch": 0.5126050420168067,
+      "grad_norm": 0.06349120289087296,
+      "learning_rate": 3.9742840018098564e-05,
+      "loss": 0.0508,
+      "step": 122
+    },
+    {
+      "epoch": 0.5168067226890757,
+      "grad_norm": 0.05786605551838875,
+      "learning_rate": 3.887124794385445e-05,
+      "loss": 0.0459,
+      "step": 123
+    },
+    {
+      "epoch": 0.5210084033613446,
+      "grad_norm": 0.058453019708395004,
+      "learning_rate": 3.80040653093779e-05,
+      "loss": 0.0446,
+      "step": 124
+    },
+    {
+      "epoch": 0.5252100840336135,
+      "grad_norm": 0.05471871420741081,
+      "learning_rate": 3.714152919374241e-05,
+      "loss": 0.0485,
+      "step": 125
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 0.06058911234140396,
+      "learning_rate": 3.628387540570963e-05,
+      "loss": 0.0462,
+      "step": 126
+    },
+    {
+      "epoch": 0.5336134453781513,
+      "grad_norm": 0.05696989595890045,
+      "learning_rate": 3.543133841926159e-05,
+      "loss": 0.0513,
+      "step": 127
+    },
+    {
+      "epoch": 0.5378151260504201,
+      "grad_norm": 0.04979941248893738,
+      "learning_rate": 3.458415130949785e-05,
+      "loss": 0.0616,
+      "step": 128
+    },
+    {
+      "epoch": 0.542016806722689,
+      "grad_norm": 0.046740416437387466,
+      "learning_rate": 3.374254568891514e-05,
+      "loss": 0.0597,
+      "step": 129
+    },
+    {
+      "epoch": 0.5462184873949579,
+      "grad_norm": 0.048966214060783386,
+      "learning_rate": 3.290675164408669e-05,
+      "loss": 0.0661,
+      "step": 130
+    },
+    {
+      "epoch": 0.5504201680672269,
+      "grad_norm": 0.05556921288371086,
+      "learning_rate": 3.207699767275904e-05,
+      "loss": 0.0771,
+      "step": 131
+    },
+    {
+      "epoch": 0.5546218487394958,
+      "grad_norm": 0.058795638382434845,
+      "learning_rate": 3.12535106213829e-05,
+      "loss": 0.0708,
+      "step": 132
+    },
+    {
+      "epoch": 0.5588235294117647,
+      "grad_norm": 0.059710677713155746,
+      "learning_rate": 3.0436515623095647e-05,
+      "loss": 0.0702,
+      "step": 133
+    },
+    {
+      "epoch": 0.5630252100840336,
+      "grad_norm": 0.06440545618534088,
+      "learning_rate": 2.962623603617218e-05,
+      "loss": 0.0857,
+      "step": 134
+    },
+    {
+      "epoch": 0.5672268907563025,
+      "grad_norm": 0.059835322201251984,
+      "learning_rate": 2.8822893382960955e-05,
+      "loss": 0.0959,
+      "step": 135
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.06194557622075081,
+      "learning_rate": 2.802670728932207e-05,
+      "loss": 0.1121,
+      "step": 136
+    },
+    {
+      "epoch": 0.5756302521008403,
+      "grad_norm": 0.06737734377384186,
+      "learning_rate": 2.723789542458361e-05,
+      "loss": 0.1135,
+      "step": 137
+    },
+    {
+      "epoch": 0.5798319327731093,
+      "grad_norm": 0.06589267402887344,
+      "learning_rate": 2.6456673442033183e-05,
+      "loss": 0.1125,
+      "step": 138
+    },
+    {
+      "epoch": 0.5840336134453782,
+      "grad_norm": 0.07247166335582733,
+      "learning_rate": 2.5683254919960356e-05,
+      "loss": 0.1377,
+      "step": 139
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.07507860660552979,
+      "learning_rate": 2.4917851303266533e-05,
+      "loss": 0.1326,
+      "step": 140
+    },
+    {
+      "epoch": 0.592436974789916,
+      "grad_norm": 0.09094900637865067,
+      "learning_rate": 2.4160671845658007e-05,
+      "loss": 0.1411,
+      "step": 141
+    },
+    {
+      "epoch": 0.5966386554621849,
+      "grad_norm": 0.09972415864467621,
+      "learning_rate": 2.3411923552438105e-05,
+      "loss": 0.1649,
+      "step": 142
+    },
+    {
+      "epoch": 0.6008403361344538,
+      "grad_norm": 0.10327650606632233,
+      "learning_rate": 2.2671811123913983e-05,
+      "loss": 0.185,
+      "step": 143
+    },
+    {
+      "epoch": 0.6050420168067226,
+      "grad_norm": 0.13001111149787903,
+      "learning_rate": 2.194053689943362e-05,
+      "loss": 0.2116,
+      "step": 144
+    },
+    {
+      "epoch": 0.6092436974789915,
+      "grad_norm": 0.10833977162837982,
+      "learning_rate": 2.121830080206827e-05,
+      "loss": 0.2416,
+      "step": 145
+    },
+    {
+      "epoch": 0.6134453781512605,
+      "grad_norm": 0.1772170066833496,
+      "learning_rate": 2.0505300283955464e-05,
+      "loss": 0.3062,
+      "step": 146
+    },
+    {
+      "epoch": 0.6176470588235294,
+      "grad_norm": 0.2684325873851776,
+      "learning_rate": 1.9801730272317585e-05,
+      "loss": 0.4366,
+      "step": 147
+    },
+    {
+      "epoch": 0.6218487394957983,
+      "grad_norm": 0.288666307926178,
+      "learning_rate": 1.910778311617072e-05,
+      "loss": 0.6787,
+      "step": 148
+    },
+    {
+      "epoch": 0.6260504201680672,
+      "grad_norm": 0.31838375329971313,
+      "learning_rate": 1.8423648533738342e-05,
+      "loss": 0.9365,
+      "step": 149
+    },
+    {
+      "epoch": 0.6302521008403361,
+      "grad_norm": 0.3195730745792389,
+      "learning_rate": 1.7749513560584252e-05,
+      "loss": 1.051,
+      "step": 150
+    },
+    {
+      "epoch": 0.6302521008403361,
+      "eval_loss": 0.14084061980247498,
+      "eval_runtime": 247.0151,
+      "eval_samples_per_second": 1.623,
+      "eval_steps_per_second": 0.409,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.86404819402752e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null