Training in progress, step 30000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +719 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd8fd0ff66e27efb1ed3a7e6f1973ec474b8b4a9f2bc4462fefbe4196ef0b8e6
 size 368988278

 version https://git-lfs.github.com/spec/v1
+oid sha256:055db62e7afaf72547d8020ffa4c60d79b2df7d5d99747310e09d238a4ba1fa7
 size 368988278

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40f46e4f09ecfddda081f3c817b19993ae436a048791221c20ca2ab6b4c612da
 size 1107079290

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c57ff1606838ae93b0606705e53592c3c93bfa3a777074b3409ef82ed78e848
 size 1107079290

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e735ed11597ed40a2b6854e0229902e1a21fedc0a0dbc608ca905fae57d5b06b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a2fbcd26bac3ea7dc02fc9ede5b8a1914ca51611473722a11a969e1f26ac0ee
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ba3815fc0953b1b7f08cea092dfc0a62c4bbc2a2c68780d3f4dd0b5e22582a7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d97b511d2fdb8061e5bf72c139923941c148260fac1caedd654028da6986c1
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:647ac15563fcad903adbb616e9b2c36b237a3ed5939d088620212da969930f6c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3839473129eb8c438ab312370daa55eb10a0790f33d38fc5eaa24859b54b0d1f
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93e3733c5b180986b7efbec17b663bf5231343d187374d184768fcd913797167
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5088a0d34c7015afe60457fbb3f0a4740839369017a42ea4b3250322c2d63ceb
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9820ea4fec1b01f3da091290c3e8b5ddb86a3a3fa17285c248b64910c2d0b4f0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9cac0eb25286b75549fa2030810940adf357064a83facaf5c58ebe37190b6ac
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7413035def085e41776a629afc94fc24fe5a955f1ad83b32f9b370ab60f9a18d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0a57d29811122d52bd53f81af680412b91dde1cd2a12fa885d8a54388be8e2d
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91e3953bcbf4089415abffbd914fbbe4580121f6c843eabbf70624c5ed144814
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c90ab29b255eaf920ecc1cba0b586e426f8e2db67b44a65576693f84178a04f
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:369fde7bff4dfc0d6b9cf773cf9b0352696083f84763999e05a631ee6d52c5e3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4efbfa3cfb1bb8fb9c3380e65959a8b4eaf3bceb0507a26ffba1a3e4636ddb1
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d91b2e4d532624cd81aa3d0bf4043f84fcc3ffd3b07edd5e64ec534770339a6
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:4460050461ccd15ef821d88f33ca8aec62edc9562663da8bad202acbfef43bd7
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7224232967064722,
   "eval_steps": 3000,
-  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3571,6 +3571,722 @@
       "learning_rate": 1.1287904784265563e-07,
       "loss": 15.5976,
       "step": 25000
     }
   ],
   "logging_steps": 50,
@@ -3590,7 +4306,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.365401538428928e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8669079560477666,
   "eval_steps": 3000,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.1287904784265563e-07,
       "loss": 15.5976,
       "step": 25000
+    },
+    {
+      "epoch": 0.7238681432998851,
+      "grad_norm": 20.765625,
+      "learning_rate": 1.1310480593834094e-07,
+      "loss": 15.651,
+      "step": 25050
+    },
+    {
+      "epoch": 0.7253129898932981,
+      "grad_norm": 21.203125,
+      "learning_rate": 1.1333056403402626e-07,
+      "loss": 15.7333,
+      "step": 25100
+    },
+    {
+      "epoch": 0.726757836486711,
+      "grad_norm": 22.25,
+      "learning_rate": 1.1355632212971157e-07,
+      "loss": 15.6802,
+      "step": 25150
+    },
+    {
+      "epoch": 0.7282026830801239,
+      "grad_norm": 22.8125,
+      "learning_rate": 1.1378208022539689e-07,
+      "loss": 15.6639,
+      "step": 25200
+    },
+    {
+      "epoch": 0.729647529673537,
+      "grad_norm": 21.140625,
+      "learning_rate": 1.1400783832108218e-07,
+      "loss": 15.6816,
+      "step": 25250
+    },
+    {
+      "epoch": 0.7310923762669499,
+      "grad_norm": 23.0,
+      "learning_rate": 1.1423359641676749e-07,
+      "loss": 15.5984,
+      "step": 25300
+    },
+    {
+      "epoch": 0.7325372228603628,
+      "grad_norm": 23.40625,
+      "learning_rate": 1.1445935451245281e-07,
+      "loss": 15.7119,
+      "step": 25350
+    },
+    {
+      "epoch": 0.7339820694537758,
+      "grad_norm": 21.296875,
+      "learning_rate": 1.1468511260813812e-07,
+      "loss": 15.6212,
+      "step": 25400
+    },
+    {
+      "epoch": 0.7354269160471887,
+      "grad_norm": 20.03125,
+      "learning_rate": 1.1491087070382344e-07,
+      "loss": 15.659,
+      "step": 25450
+    },
+    {
+      "epoch": 0.7368717626406016,
+      "grad_norm": 22.984375,
+      "learning_rate": 1.1513662879950876e-07,
+      "loss": 15.771,
+      "step": 25500
+    },
+    {
+      "epoch": 0.7383166092340145,
+      "grad_norm": 21.84375,
+      "learning_rate": 1.1536238689519404e-07,
+      "loss": 15.7338,
+      "step": 25550
+    },
+    {
+      "epoch": 0.7397614558274275,
+      "grad_norm": 22.234375,
+      "learning_rate": 1.1558814499087936e-07,
+      "loss": 15.6507,
+      "step": 25600
+    },
+    {
+      "epoch": 0.7412063024208405,
+      "grad_norm": 25.3125,
+      "learning_rate": 1.1581390308656468e-07,
+      "loss": 15.7084,
+      "step": 25650
+    },
+    {
+      "epoch": 0.7426511490142534,
+      "grad_norm": 26.171875,
+      "learning_rate": 1.1603966118224999e-07,
+      "loss": 15.5601,
+      "step": 25700
+    },
+    {
+      "epoch": 0.7440959956076664,
+      "grad_norm": 22.515625,
+      "learning_rate": 1.1626541927793531e-07,
+      "loss": 15.7191,
+      "step": 25750
+    },
+    {
+      "epoch": 0.7455408422010793,
+      "grad_norm": 24.375,
+      "learning_rate": 1.1649117737362062e-07,
+      "loss": 15.6457,
+      "step": 25800
+    },
+    {
+      "epoch": 0.7469856887944922,
+      "grad_norm": 23.640625,
+      "learning_rate": 1.1671693546930592e-07,
+      "loss": 15.572,
+      "step": 25850
+    },
+    {
+      "epoch": 0.7484305353879052,
+      "grad_norm": 24.375,
+      "learning_rate": 1.1694269356499123e-07,
+      "loss": 15.6297,
+      "step": 25900
+    },
+    {
+      "epoch": 0.7498753819813181,
+      "grad_norm": 23.8125,
+      "learning_rate": 1.1716845166067654e-07,
+      "loss": 15.6828,
+      "step": 25950
+    },
+    {
+      "epoch": 0.7513202285747311,
+      "grad_norm": 23.953125,
+      "learning_rate": 1.1739420975636186e-07,
+      "loss": 15.5568,
+      "step": 26000
+    },
+    {
+      "epoch": 0.7527650751681441,
+      "grad_norm": 25.421875,
+      "learning_rate": 1.1761996785204717e-07,
+      "loss": 15.6016,
+      "step": 26050
+    },
+    {
+      "epoch": 0.754209921761557,
+      "grad_norm": 22.15625,
+      "learning_rate": 1.1784572594773249e-07,
+      "loss": 15.5887,
+      "step": 26100
+    },
+    {
+      "epoch": 0.7556547683549699,
+      "grad_norm": 21.5625,
+      "learning_rate": 1.1807148404341779e-07,
+      "loss": 15.6077,
+      "step": 26150
+    },
+    {
+      "epoch": 0.7570996149483828,
+      "grad_norm": 23.328125,
+      "learning_rate": 1.1829724213910311e-07,
+      "loss": 15.6592,
+      "step": 26200
+    },
+    {
+      "epoch": 0.7585444615417958,
+      "grad_norm": 23.71875,
+      "learning_rate": 1.1852300023478841e-07,
+      "loss": 15.621,
+      "step": 26250
+    },
+    {
+      "epoch": 0.7599893081352087,
+      "grad_norm": 24.5625,
+      "learning_rate": 1.1874875833047373e-07,
+      "loss": 15.5728,
+      "step": 26300
+    },
+    {
+      "epoch": 0.7614341547286216,
+      "grad_norm": 23.21875,
+      "learning_rate": 1.1897451642615904e-07,
+      "loss": 15.6658,
+      "step": 26350
+    },
+    {
+      "epoch": 0.7628790013220347,
+      "grad_norm": 24.96875,
+      "learning_rate": 1.1920027452184434e-07,
+      "loss": 15.4367,
+      "step": 26400
+    },
+    {
+      "epoch": 0.7643238479154476,
+      "grad_norm": 23.296875,
+      "learning_rate": 1.1942603261752967e-07,
+      "loss": 15.6812,
+      "step": 26450
+    },
+    {
+      "epoch": 0.7657686945088605,
+      "grad_norm": 21.21875,
+      "learning_rate": 1.1965179071321497e-07,
+      "loss": 15.4966,
+      "step": 26500
+    },
+    {
+      "epoch": 0.7672135411022735,
+      "grad_norm": 21.859375,
+      "learning_rate": 1.1987754880890028e-07,
+      "loss": 15.6969,
+      "step": 26550
+    },
+    {
+      "epoch": 0.7686583876956864,
+      "grad_norm": 21.234375,
+      "learning_rate": 1.2010330690458558e-07,
+      "loss": 15.5063,
+      "step": 26600
+    },
+    {
+      "epoch": 0.7701032342890993,
+      "grad_norm": 30.65625,
+      "learning_rate": 1.203290650002709e-07,
+      "loss": 15.5682,
+      "step": 26650
+    },
+    {
+      "epoch": 0.7715480808825123,
+      "grad_norm": 23.0625,
+      "learning_rate": 1.205548230959562e-07,
+      "loss": 15.5967,
+      "step": 26700
+    },
+    {
+      "epoch": 0.7729929274759253,
+      "grad_norm": 22.171875,
+      "learning_rate": 1.2078058119164154e-07,
+      "loss": 15.5911,
+      "step": 26750
+    },
+    {
+      "epoch": 0.7744377740693382,
+      "grad_norm": 25.8125,
+      "learning_rate": 1.2100633928732684e-07,
+      "loss": 15.6635,
+      "step": 26800
+    },
+    {
+      "epoch": 0.7758826206627512,
+      "grad_norm": 23.40625,
+      "learning_rate": 1.2123209738301214e-07,
+      "loss": 15.5876,
+      "step": 26850
+    },
+    {
+      "epoch": 0.7773274672561641,
+      "grad_norm": 21.15625,
+      "learning_rate": 1.2145785547869745e-07,
+      "loss": 15.5192,
+      "step": 26900
+    },
+    {
+      "epoch": 0.778772313849577,
+      "grad_norm": 23.5625,
+      "learning_rate": 1.2168361357438277e-07,
+      "loss": 15.5746,
+      "step": 26950
+    },
+    {
+      "epoch": 0.7802171604429899,
+      "grad_norm": 27.359375,
+      "learning_rate": 1.2190937167006808e-07,
+      "loss": 15.5407,
+      "step": 27000
+    },
+    {
+      "epoch": 0.7802171604429899,
+      "eval_loss": 1.9437412023544312,
+      "eval_runtime": 340.4,
+      "eval_samples_per_second": 2739.524,
+      "eval_steps_per_second": 42.806,
+      "step": 27000
+    },
+    {
+      "epoch": 0.7816620070364029,
+      "grad_norm": 23.0625,
+      "learning_rate": 1.221351297657534e-07,
+      "loss": 15.609,
+      "step": 27050
+    },
+    {
+      "epoch": 0.7831068536298158,
+      "grad_norm": 25.40625,
+      "learning_rate": 1.223608878614387e-07,
+      "loss": 15.6637,
+      "step": 27100
+    },
+    {
+      "epoch": 0.7845517002232288,
+      "grad_norm": 23.90625,
+      "learning_rate": 1.22586645957124e-07,
+      "loss": 15.6405,
+      "step": 27150
+    },
+    {
+      "epoch": 0.7859965468166418,
+      "grad_norm": 22.390625,
+      "learning_rate": 1.2281240405280934e-07,
+      "loss": 15.5515,
+      "step": 27200
+    },
+    {
+      "epoch": 0.7874413934100547,
+      "grad_norm": 25.265625,
+      "learning_rate": 1.2303816214849464e-07,
+      "loss": 15.5254,
+      "step": 27250
+    },
+    {
+      "epoch": 0.7888862400034676,
+      "grad_norm": 22.125,
+      "learning_rate": 1.2326392024417994e-07,
+      "loss": 15.5474,
+      "step": 27300
+    },
+    {
+      "epoch": 0.7903310865968806,
+      "grad_norm": 23.03125,
+      "learning_rate": 1.2348967833986527e-07,
+      "loss": 15.554,
+      "step": 27350
+    },
+    {
+      "epoch": 0.7917759331902935,
+      "grad_norm": 19.96875,
+      "learning_rate": 1.2371543643555057e-07,
+      "loss": 15.5717,
+      "step": 27400
+    },
+    {
+      "epoch": 0.7932207797837064,
+      "grad_norm": 20.53125,
+      "learning_rate": 1.2394119453123588e-07,
+      "loss": 15.5454,
+      "step": 27450
+    },
+    {
+      "epoch": 0.7946656263771195,
+      "grad_norm": 21.34375,
+      "learning_rate": 1.241669526269212e-07,
+      "loss": 15.5759,
+      "step": 27500
+    },
+    {
+      "epoch": 0.7961104729705324,
+      "grad_norm": 23.9375,
+      "learning_rate": 1.243927107226065e-07,
+      "loss": 15.5199,
+      "step": 27550
+    },
+    {
+      "epoch": 0.7975553195639453,
+      "grad_norm": 21.84375,
+      "learning_rate": 1.246184688182918e-07,
+      "loss": 15.4171,
+      "step": 27600
+    },
+    {
+      "epoch": 0.7990001661573582,
+      "grad_norm": 22.234375,
+      "learning_rate": 1.2484422691397714e-07,
+      "loss": 15.5973,
+      "step": 27650
+    },
+    {
+      "epoch": 0.8004450127507712,
+      "grad_norm": 22.421875,
+      "learning_rate": 1.2506998500966244e-07,
+      "loss": 15.4923,
+      "step": 27700
+    },
+    {
+      "epoch": 0.8018898593441841,
+      "grad_norm": 21.34375,
+      "learning_rate": 1.2529574310534774e-07,
+      "loss": 15.509,
+      "step": 27750
+    },
+    {
+      "epoch": 0.803334705937597,
+      "grad_norm": 24.359375,
+      "learning_rate": 1.2552150120103305e-07,
+      "loss": 15.5824,
+      "step": 27800
+    },
+    {
+      "epoch": 0.80477955253101,
+      "grad_norm": 21.25,
+      "learning_rate": 1.2574725929671838e-07,
+      "loss": 15.5973,
+      "step": 27850
+    },
+    {
+      "epoch": 0.806224399124423,
+      "grad_norm": 27.984375,
+      "learning_rate": 1.2597301739240368e-07,
+      "loss": 15.564,
+      "step": 27900
+    },
+    {
+      "epoch": 0.8076692457178359,
+      "grad_norm": 33.71875,
+      "learning_rate": 1.26198775488089e-07,
+      "loss": 15.439,
+      "step": 27950
+    },
+    {
+      "epoch": 0.8091140923112489,
+      "grad_norm": 24.09375,
+      "learning_rate": 1.264245335837743e-07,
+      "loss": 15.5574,
+      "step": 28000
+    },
+    {
+      "epoch": 0.8105589389046618,
+      "grad_norm": 22.78125,
+      "learning_rate": 1.266502916794596e-07,
+      "loss": 15.5851,
+      "step": 28050
+    },
+    {
+      "epoch": 0.8120037854980747,
+      "grad_norm": 21.125,
+      "learning_rate": 1.2687604977514494e-07,
+      "loss": 15.5334,
+      "step": 28100
+    },
+    {
+      "epoch": 0.8134486320914877,
+      "grad_norm": 21.5625,
+      "learning_rate": 1.2710180787083024e-07,
+      "loss": 15.5789,
+      "step": 28150
+    },
+    {
+      "epoch": 0.8148934786849006,
+      "grad_norm": 21.8125,
+      "learning_rate": 1.2732756596651557e-07,
+      "loss": 15.4793,
+      "step": 28200
+    },
+    {
+      "epoch": 0.8163383252783136,
+      "grad_norm": 21.234375,
+      "learning_rate": 1.2755332406220087e-07,
+      "loss": 15.5015,
+      "step": 28250
+    },
+    {
+      "epoch": 0.8177831718717266,
+      "grad_norm": 21.203125,
+      "learning_rate": 1.2777908215788618e-07,
+      "loss": 15.3711,
+      "step": 28300
+    },
+    {
+      "epoch": 0.8192280184651395,
+      "grad_norm": 23.84375,
+      "learning_rate": 1.280048402535715e-07,
+      "loss": 15.4745,
+      "step": 28350
+    },
+    {
+      "epoch": 0.8206728650585524,
+      "grad_norm": 22.03125,
+      "learning_rate": 1.2823059834925678e-07,
+      "loss": 15.5285,
+      "step": 28400
+    },
+    {
+      "epoch": 0.8221177116519653,
+      "grad_norm": 20.9375,
+      "learning_rate": 1.284563564449421e-07,
+      "loss": 15.5214,
+      "step": 28450
+    },
+    {
+      "epoch": 0.8235625582453783,
+      "grad_norm": 25.546875,
+      "learning_rate": 1.286821145406274e-07,
+      "loss": 15.4168,
+      "step": 28500
+    },
+    {
+      "epoch": 0.8250074048387912,
+      "grad_norm": 24.265625,
+      "learning_rate": 1.2890787263631271e-07,
+      "loss": 15.5043,
+      "step": 28550
+    },
+    {
+      "epoch": 0.8264522514322041,
+      "grad_norm": 23.265625,
+      "learning_rate": 1.2913363073199804e-07,
+      "loss": 15.4206,
+      "step": 28600
+    },
+    {
+      "epoch": 0.8278970980256172,
+      "grad_norm": 22.0,
+      "learning_rate": 1.2935938882768334e-07,
+      "loss": 15.4444,
+      "step": 28650
+    },
+    {
+      "epoch": 0.8293419446190301,
+      "grad_norm": 25.09375,
+      "learning_rate": 1.2958514692336867e-07,
+      "loss": 15.4043,
+      "step": 28700
+    },
+    {
+      "epoch": 0.830786791212443,
+      "grad_norm": 21.046875,
+      "learning_rate": 1.2981090501905398e-07,
+      "loss": 15.5465,
+      "step": 28750
+    },
+    {
+      "epoch": 0.832231637805856,
+      "grad_norm": 21.234375,
+      "learning_rate": 1.300366631147393e-07,
+      "loss": 15.4988,
+      "step": 28800
+    },
+    {
+      "epoch": 0.8336764843992689,
+      "grad_norm": 21.046875,
+      "learning_rate": 1.302624212104246e-07,
+      "loss": 15.4368,
+      "step": 28850
+    },
+    {
+      "epoch": 0.8351213309926818,
+      "grad_norm": 23.46875,
+      "learning_rate": 1.304881793061099e-07,
+      "loss": 15.4251,
+      "step": 28900
+    },
+    {
+      "epoch": 0.8365661775860948,
+      "grad_norm": 23.046875,
+      "learning_rate": 1.3071393740179524e-07,
+      "loss": 15.4271,
+      "step": 28950
+    },
+    {
+      "epoch": 0.8380110241795078,
+      "grad_norm": 21.0,
+      "learning_rate": 1.3093969549748054e-07,
+      "loss": 15.4439,
+      "step": 29000
+    },
+    {
+      "epoch": 0.8394558707729207,
+      "grad_norm": 21.96875,
+      "learning_rate": 1.3116545359316584e-07,
+      "loss": 15.4197,
+      "step": 29050
+    },
+    {
+      "epoch": 0.8409007173663336,
+      "grad_norm": 21.109375,
+      "learning_rate": 1.3139121168885115e-07,
+      "loss": 15.428,
+      "step": 29100
+    },
+    {
+      "epoch": 0.8423455639597466,
+      "grad_norm": 21.984375,
+      "learning_rate": 1.3161696978453645e-07,
+      "loss": 15.3989,
+      "step": 29150
+    },
+    {
+      "epoch": 0.8437904105531595,
+      "grad_norm": 21.921875,
+      "learning_rate": 1.3184272788022178e-07,
+      "loss": 15.4178,
+      "step": 29200
+    },
+    {
+      "epoch": 0.8452352571465724,
+      "grad_norm": 20.765625,
+      "learning_rate": 1.3206848597590708e-07,
+      "loss": 15.3614,
+      "step": 29250
+    },
+    {
+      "epoch": 0.8466801037399854,
+      "grad_norm": 21.390625,
+      "learning_rate": 1.322942440715924e-07,
+      "loss": 15.4306,
+      "step": 29300
+    },
+    {
+      "epoch": 0.8481249503333983,
+      "grad_norm": 28.84375,
+      "learning_rate": 1.325200021672777e-07,
+      "loss": 15.4706,
+      "step": 29350
+    },
+    {
+      "epoch": 0.8495697969268113,
+      "grad_norm": 22.921875,
+      "learning_rate": 1.32745760262963e-07,
+      "loss": 15.4703,
+      "step": 29400
+    },
+    {
+      "epoch": 0.8510146435202243,
+      "grad_norm": 36.5625,
+      "learning_rate": 1.3297151835864834e-07,
+      "loss": 15.45,
+      "step": 29450
+    },
+    {
+      "epoch": 0.8524594901136372,
+      "grad_norm": 24.25,
+      "learning_rate": 1.3319727645433364e-07,
+      "loss": 15.4233,
+      "step": 29500
+    },
+    {
+      "epoch": 0.8539043367070501,
+      "grad_norm": 34.96875,
+      "learning_rate": 1.3342303455001897e-07,
+      "loss": 15.4693,
+      "step": 29550
+    },
+    {
+      "epoch": 0.8553491833004631,
+      "grad_norm": 21.953125,
+      "learning_rate": 1.3364879264570427e-07,
+      "loss": 15.4402,
+      "step": 29600
+    },
+    {
+      "epoch": 0.856794029893876,
+      "grad_norm": 22.40625,
+      "learning_rate": 1.338745507413896e-07,
+      "loss": 15.4761,
+      "step": 29650
+    },
+    {
+      "epoch": 0.8582388764872889,
+      "grad_norm": 20.625,
+      "learning_rate": 1.341003088370749e-07,
+      "loss": 15.3796,
+      "step": 29700
+    },
+    {
+      "epoch": 0.859683723080702,
+      "grad_norm": 21.328125,
+      "learning_rate": 1.3432606693276018e-07,
+      "loss": 15.3857,
+      "step": 29750
+    },
+    {
+      "epoch": 0.8611285696741149,
+      "grad_norm": 23.375,
+      "learning_rate": 1.345518250284455e-07,
+      "loss": 15.414,
+      "step": 29800
+    },
+    {
+      "epoch": 0.8625734162675278,
+      "grad_norm": 22.671875,
+      "learning_rate": 1.347775831241308e-07,
+      "loss": 15.3401,
+      "step": 29850
+    },
+    {
+      "epoch": 0.8640182628609407,
+      "grad_norm": 22.65625,
+      "learning_rate": 1.3500334121981614e-07,
+      "loss": 15.346,
+      "step": 29900
+    },
+    {
+      "epoch": 0.8654631094543537,
+      "grad_norm": 23.890625,
+      "learning_rate": 1.3522909931550144e-07,
+      "loss": 15.42,
+      "step": 29950
+    },
+    {
+      "epoch": 0.8669079560477666,
+      "grad_norm": 20.515625,
+      "learning_rate": 1.3545485741118675e-07,
+      "loss": 15.389,
+      "step": 30000
+    },
+    {
+      "epoch": 0.8669079560477666,
+      "eval_loss": 1.9219062328338623,
+      "eval_runtime": 349.965,
+      "eval_samples_per_second": 2664.65,
+      "eval_steps_per_second": 41.636,
+      "step": 30000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.238481846114714e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null