Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b891797876220ccdbcb44810208e98022965b68b40e086c344b5de7f6cc6487d
 size 289452128

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44724e2d4a89f5955b389dc74f202a1c863731eef26d020703090613c6c2280
 size 289452128

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12f428067e505d06d5e704bc119f456c513e0a0857d70c5c68e8d621d88835d7
 size 147359892

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd7d4d885cb0314a46dc9a8bee947aa8bca2532cc4b55ff2a1ac732e63f9246c
 size 147359892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c258c46613a0a1b7bfc77bb59bab07d92cddda90d5d4bcbfbd14dbaca6100db
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f269f88e6c3f8ca85570234591bbe63ac5bf86a81f11be0d6edb49cb9f818d31
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.363740086555481,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.010311670232785956,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 32.228,
       "eval_steps_per_second": 8.058,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.433129108832256e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3284672498703003,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.015467505349178933,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 32.228,
       "eval_steps_per_second": 8.058,
       "step": 100
+    },
+    {
+      "epoch": 0.010414786935113815,
+      "grad_norm": 0.14795686304569244,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.9004,
+      "step": 101
+    },
+    {
+      "epoch": 0.010517903637441674,
+      "grad_norm": 0.17717111110687256,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 1.0257,
+      "step": 102
+    },
+    {
+      "epoch": 0.010621020339769534,
+      "grad_norm": 0.18498282134532928,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 1.0396,
+      "step": 103
+    },
+    {
+      "epoch": 0.010724137042097393,
+      "grad_norm": 0.19741852581501007,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 1.1009,
+      "step": 104
+    },
+    {
+      "epoch": 0.010827253744425253,
+      "grad_norm": 0.20189106464385986,
+      "learning_rate": 5e-05,
+      "loss": 1.0569,
+      "step": 105
+    },
+    {
+      "epoch": 0.010930370446753114,
+      "grad_norm": 0.20939910411834717,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 1.0656,
+      "step": 106
+    },
+    {
+      "epoch": 0.011033487149080973,
+      "grad_norm": 0.2105722278356552,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 1.0898,
+      "step": 107
+    },
+    {
+      "epoch": 0.011136603851408832,
+      "grad_norm": 0.19876085221767426,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.9473,
+      "step": 108
+    },
+    {
+      "epoch": 0.011239720553736692,
+      "grad_norm": 0.20182077586650848,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 1.0884,
+      "step": 109
+    },
+    {
+      "epoch": 0.011342837256064551,
+      "grad_norm": 0.18769417703151703,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.9572,
+      "step": 110
+    },
+    {
+      "epoch": 0.01144595395839241,
+      "grad_norm": 0.18182441592216492,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 1.0277,
+      "step": 111
+    },
+    {
+      "epoch": 0.01154907066072027,
+      "grad_norm": 0.1890416145324707,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.9458,
+      "step": 112
+    },
+    {
+      "epoch": 0.01165218736304813,
+      "grad_norm": 0.1826457679271698,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 1.042,
+      "step": 113
+    },
+    {
+      "epoch": 0.011755304065375989,
+      "grad_norm": 0.21521930396556854,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 1.0792,
+      "step": 114
+    },
+    {
+      "epoch": 0.011858420767703848,
+      "grad_norm": 0.2592601776123047,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 1.2465,
+      "step": 115
+    },
+    {
+      "epoch": 0.01196153747003171,
+      "grad_norm": 0.351700097322464,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 1.4669,
+      "step": 116
+    },
+    {
+      "epoch": 0.012064654172359569,
+      "grad_norm": 0.4038744568824768,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 1.4436,
+      "step": 117
+    },
+    {
+      "epoch": 0.012167770874687428,
+      "grad_norm": 0.3753279745578766,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 1.4066,
+      "step": 118
+    },
+    {
+      "epoch": 0.012270887577015287,
+      "grad_norm": 0.33974844217300415,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 1.3319,
+      "step": 119
+    },
+    {
+      "epoch": 0.012374004279343147,
+      "grad_norm": 0.3477650284767151,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 1.4443,
+      "step": 120
+    },
+    {
+      "epoch": 0.012477120981671006,
+      "grad_norm": 0.40520280599594116,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 1.5132,
+      "step": 121
+    },
+    {
+      "epoch": 0.012580237683998866,
+      "grad_norm": 0.3967605233192444,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 1.4972,
+      "step": 122
+    },
+    {
+      "epoch": 0.012683354386326725,
+      "grad_norm": 0.4460206627845764,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 1.6543,
+      "step": 123
+    },
+    {
+      "epoch": 0.012786471088654584,
+      "grad_norm": 0.4313359558582306,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.7027,
+      "step": 124
+    },
+    {
+      "epoch": 0.012889587790982444,
+      "grad_norm": 0.38823527097702026,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 1.5328,
+      "step": 125
+    },
+    {
+      "epoch": 0.012992704493310303,
+      "grad_norm": 0.4104168713092804,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 1.4856,
+      "step": 126
+    },
+    {
+      "epoch": 0.013095821195638164,
+      "grad_norm": 0.44358229637145996,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 1.5431,
+      "step": 127
+    },
+    {
+      "epoch": 0.013198937897966024,
+      "grad_norm": 0.419261634349823,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 1.5564,
+      "step": 128
+    },
+    {
+      "epoch": 0.013302054600293883,
+      "grad_norm": 0.468816876411438,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 1.5998,
+      "step": 129
+    },
+    {
+      "epoch": 0.013405171302621742,
+      "grad_norm": 0.40720266103744507,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 1.6278,
+      "step": 130
+    },
+    {
+      "epoch": 0.013508288004949602,
+      "grad_norm": 0.37988948822021484,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 1.4482,
+      "step": 131
+    },
+    {
+      "epoch": 0.013611404707277461,
+      "grad_norm": 0.41549137234687805,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 1.4159,
+      "step": 132
+    },
+    {
+      "epoch": 0.01371452140960532,
+      "grad_norm": 0.4578942656517029,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 1.7196,
+      "step": 133
+    },
+    {
+      "epoch": 0.01381763811193318,
+      "grad_norm": 0.37664926052093506,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 1.4267,
+      "step": 134
+    },
+    {
+      "epoch": 0.01392075481426104,
+      "grad_norm": 0.4693012833595276,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 1.5935,
+      "step": 135
+    },
+    {
+      "epoch": 0.014023871516588899,
+      "grad_norm": 0.38475286960601807,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 1.3708,
+      "step": 136
+    },
+    {
+      "epoch": 0.01412698821891676,
+      "grad_norm": 0.45392167568206787,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 1.1787,
+      "step": 137
+    },
+    {
+      "epoch": 0.01423010492124462,
+      "grad_norm": 0.49088478088378906,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 1.3393,
+      "step": 138
+    },
+    {
+      "epoch": 0.014333221623572479,
+      "grad_norm": 0.5570761561393738,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 1.4169,
+      "step": 139
+    },
+    {
+      "epoch": 0.014436338325900338,
+      "grad_norm": 0.5477977991104126,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 1.3538,
+      "step": 140
+    },
+    {
+      "epoch": 0.014539455028228197,
+      "grad_norm": 0.5661804676055908,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 1.2375,
+      "step": 141
+    },
+    {
+      "epoch": 0.014642571730556057,
+      "grad_norm": 0.5767088532447815,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 1.2619,
+      "step": 142
+    },
+    {
+      "epoch": 0.014745688432883916,
+      "grad_norm": 0.6942093968391418,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.4754,
+      "step": 143
+    },
+    {
+      "epoch": 0.014848805135211775,
+      "grad_norm": 0.6901765465736389,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 1.485,
+      "step": 144
+    },
+    {
+      "epoch": 0.014951921837539635,
+      "grad_norm": 0.7722551822662354,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 1.4824,
+      "step": 145
+    },
+    {
+      "epoch": 0.015055038539867494,
+      "grad_norm": 0.7323166131973267,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 1.3823,
+      "step": 146
+    },
+    {
+      "epoch": 0.015158155242195355,
+      "grad_norm": 0.7713239192962646,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 1.421,
+      "step": 147
+    },
+    {
+      "epoch": 0.015261271944523215,
+      "grad_norm": 0.9180830121040344,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 1.4636,
+      "step": 148
+    },
+    {
+      "epoch": 0.015364388646851074,
+      "grad_norm": 0.8078856468200684,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 1.4319,
+      "step": 149
+    },
+    {
+      "epoch": 0.015467505349178933,
+      "grad_norm": 1.2015869617462158,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 1.7577,
+      "step": 150
+    },
+    {
+      "epoch": 0.015467505349178933,
+      "eval_loss": 1.3284672498703003,
+      "eval_runtime": 506.7409,
+      "eval_samples_per_second": 32.233,
+      "eval_steps_per_second": 8.059,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.145557363117261e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null