Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab05564fb44196c5cba92d365a858ab95e05f5d8bc72db4656a1e1bd23149531
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:94a5f59e072e4c24b73e93b9831d43ae20919fd6835cc88652151d2894a00a1d
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f54111d2ccd24bd89866b0d094f10aff1f4f7a249c164dd7bad23f974ae3120d
 size 281824770

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c83c9cd125ba0280fe5df3b8160ccca775be65c201ecbfc458b5306de918ea4
 size 281824770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59eafd554f9dd23e02f02cfe6313d07221fb83f041422662ed1b942860089ced
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eebfda5e39a4bf124c7c7464ba0e39635f0dc519b0c89fc544e9ffaa9e3f3511
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.239711284637451,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.03716090672612412,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 41.272,
       "eval_steps_per_second": 20.636,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7747803637874688.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.157715320587158,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.055741360089186176,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.272,
       "eval_steps_per_second": 20.636,
       "step": 100
+    },
+    {
+      "epoch": 0.03753251579338536,
+      "grad_norm": 1.8480045795440674,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 3.4696,
+      "step": 101
+    },
+    {
+      "epoch": 0.0379041248606466,
+      "grad_norm": 1.9059332609176636,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 3.5296,
+      "step": 102
+    },
+    {
+      "epoch": 0.03827573392790784,
+      "grad_norm": 1.69303297996521,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 3.3444,
+      "step": 103
+    },
+    {
+      "epoch": 0.03864734299516908,
+      "grad_norm": 1.7022647857666016,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 3.4552,
+      "step": 104
+    },
+    {
+      "epoch": 0.03901895206243032,
+      "grad_norm": 1.520664930343628,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 3.2903,
+      "step": 105
+    },
+    {
+      "epoch": 0.03939056112969157,
+      "grad_norm": 1.3997753858566284,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 3.3293,
+      "step": 106
+    },
+    {
+      "epoch": 0.03976217019695281,
+      "grad_norm": 1.373949646949768,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 3.3496,
+      "step": 107
+    },
+    {
+      "epoch": 0.04013377926421405,
+      "grad_norm": 1.4093092679977417,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 3.2133,
+      "step": 108
+    },
+    {
+      "epoch": 0.04050538833147529,
+      "grad_norm": 1.5684155225753784,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 3.3316,
+      "step": 109
+    },
+    {
+      "epoch": 0.04087699739873653,
+      "grad_norm": 1.5542587041854858,
+      "learning_rate": 5e-05,
+      "loss": 3.1965,
+      "step": 110
+    },
+    {
+      "epoch": 0.04124860646599777,
+      "grad_norm": 1.5495750904083252,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 3.2084,
+      "step": 111
+    },
+    {
+      "epoch": 0.04162021553325901,
+      "grad_norm": 1.596696138381958,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 3.3498,
+      "step": 112
+    },
+    {
+      "epoch": 0.041991824600520256,
+      "grad_norm": 1.546371579170227,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 3.3169,
+      "step": 113
+    },
+    {
+      "epoch": 0.042363433667781496,
+      "grad_norm": 1.6366443634033203,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 3.1769,
+      "step": 114
+    },
+    {
+      "epoch": 0.042735042735042736,
+      "grad_norm": 1.6571626663208008,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 3.1964,
+      "step": 115
+    },
+    {
+      "epoch": 0.043106651802303976,
+      "grad_norm": 1.7170463800430298,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.2483,
+      "step": 116
+    },
+    {
+      "epoch": 0.043478260869565216,
+      "grad_norm": 1.6605336666107178,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 3.183,
+      "step": 117
+    },
+    {
+      "epoch": 0.043849869936826456,
+      "grad_norm": 1.6899641752243042,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 3.1072,
+      "step": 118
+    },
+    {
+      "epoch": 0.044221479004087696,
+      "grad_norm": 1.6592519283294678,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 3.1128,
+      "step": 119
+    },
+    {
+      "epoch": 0.044593088071348944,
+      "grad_norm": 1.7209159135818481,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 3.1762,
+      "step": 120
+    },
+    {
+      "epoch": 0.044964697138610184,
+      "grad_norm": 1.8177850246429443,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 3.2915,
+      "step": 121
+    },
+    {
+      "epoch": 0.045336306205871424,
+      "grad_norm": 1.829469084739685,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 3.1219,
+      "step": 122
+    },
+    {
+      "epoch": 0.045707915273132664,
+      "grad_norm": 1.9255375862121582,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 3.2112,
+      "step": 123
+    },
+    {
+      "epoch": 0.046079524340393904,
+      "grad_norm": 1.9076225757598877,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 3.1843,
+      "step": 124
+    },
+    {
+      "epoch": 0.046451133407655144,
+      "grad_norm": 1.8772251605987549,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 3.295,
+      "step": 125
+    },
+    {
+      "epoch": 0.046822742474916385,
+      "grad_norm": 1.8381478786468506,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.2535,
+      "step": 126
+    },
+    {
+      "epoch": 0.04719435154217763,
+      "grad_norm": 1.9620457887649536,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 3.1093,
+      "step": 127
+    },
+    {
+      "epoch": 0.04756596060943887,
+      "grad_norm": 1.8187255859375,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 3.0412,
+      "step": 128
+    },
+    {
+      "epoch": 0.04793756967670011,
+      "grad_norm": 2.0452768802642822,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 3.1595,
+      "step": 129
+    },
+    {
+      "epoch": 0.04830917874396135,
+      "grad_norm": 2.0695669651031494,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 3.0353,
+      "step": 130
+    },
+    {
+      "epoch": 0.04868078781122259,
+      "grad_norm": 1.918813705444336,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 3.0169,
+      "step": 131
+    },
+    {
+      "epoch": 0.04905239687848383,
+      "grad_norm": 2.064602851867676,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 3.0316,
+      "step": 132
+    },
+    {
+      "epoch": 0.04942400594574508,
+      "grad_norm": 2.167141914367676,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 3.244,
+      "step": 133
+    },
+    {
+      "epoch": 0.04979561501300632,
+      "grad_norm": 2.1696243286132812,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 3.11,
+      "step": 134
+    },
+    {
+      "epoch": 0.05016722408026756,
+      "grad_norm": 2.138988971710205,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 3.049,
+      "step": 135
+    },
+    {
+      "epoch": 0.0505388331475288,
+      "grad_norm": 2.2165169715881348,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 3.0517,
+      "step": 136
+    },
+    {
+      "epoch": 0.05091044221479004,
+      "grad_norm": 2.2241313457489014,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 2.9602,
+      "step": 137
+    },
+    {
+      "epoch": 0.05128205128205128,
+      "grad_norm": 2.334522247314453,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 3.1206,
+      "step": 138
+    },
+    {
+      "epoch": 0.05165366034931252,
+      "grad_norm": 2.241197109222412,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 2.9884,
+      "step": 139
+    },
+    {
+      "epoch": 0.05202526941657377,
+      "grad_norm": 2.4286975860595703,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.8666,
+      "step": 140
+    },
+    {
+      "epoch": 0.05239687848383501,
+      "grad_norm": 2.472275495529175,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 2.9763,
+      "step": 141
+    },
+    {
+      "epoch": 0.05276848755109625,
+      "grad_norm": 2.541703224182129,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.8725,
+      "step": 142
+    },
+    {
+      "epoch": 0.05314009661835749,
+      "grad_norm": 2.5989933013916016,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 2.7639,
+      "step": 143
+    },
+    {
+      "epoch": 0.05351170568561873,
+      "grad_norm": 2.4298439025878906,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.8823,
+      "step": 144
+    },
+    {
+      "epoch": 0.05388331475287997,
+      "grad_norm": 2.7883102893829346,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 2.9756,
+      "step": 145
+    },
+    {
+      "epoch": 0.05425492382014121,
+      "grad_norm": 3.1214065551757812,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.1575,
+      "step": 146
+    },
+    {
+      "epoch": 0.054626532887402456,
+      "grad_norm": 2.6867949962615967,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 3.0654,
+      "step": 147
+    },
+    {
+      "epoch": 0.054998141954663696,
+      "grad_norm": 2.903306722640991,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 3.3354,
+      "step": 148
+    },
+    {
+      "epoch": 0.055369751021924936,
+      "grad_norm": 3.0160841941833496,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 3.333,
+      "step": 149
+    },
+    {
+      "epoch": 0.055741360089186176,
+      "grad_norm": 3.1288528442382812,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 3.5297,
+      "step": 150
+    },
+    {
+      "epoch": 0.055741360089186176,
+      "eval_loss": 3.157715320587158,
+      "eval_runtime": 109.7254,
+      "eval_samples_per_second": 41.303,
+      "eval_steps_per_second": 20.652,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1612044853772288e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null