Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25df7dc114f39c235b6953b17efb7060024785c3790d860dc1f293abcc7f2db5
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:f315ba1e34d8d1164a2ecb1d4c93f4c59dd50fd2e4c53ce7ac01ddbc2337af05
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:380b05a1d9ef8e28e17df03d8f3e740baf05e01efc9b9496112fee156eb73e4e
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:589afc1e15c093674ba75bf73a7bfc6cef989388942b9864ba66462a62757845
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd64420981b74cf5a109e2ec293d39be8a37c98a4a1afdb85d935ef80d6f91f7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cf8af63a69ba809e674c2ff22b118daff2a349f79bcd161743462cce6a77214
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:400cf8ce27e35c38b2b0dbe211c0868ee506d3d93dba1f581b746ceaea766c19
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:664a2a88cd6e4324cd008e5aa98b8c6b887fa177899a00657c9217c0f97adf5c
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4191b4b308380566f946258d7cdf7bd2f7c4bc9aa5719f5e642f794f03f98305
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f31770cb705d701cca880166daf450f4d1fdd74a7140bc22eef412551e665daf
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d4de7bc1c5ad911dc080eb96f4426a3071ba5893340eb04ac7dfbf1de9670ef
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d2065c34f492ae2fe2a0826b54964350661388f254ab4950f6f23ebb5b1bc17
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1249579191207886,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.009666739167210421,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 24.563,
       "eval_steps_per_second": 6.386,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.9859068337822106e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0809752941131592,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.019333478334420843,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.563,
       "eval_steps_per_second": 6.386,
       "step": 25
+    },
+    {
+      "epoch": 0.010053408733898837,
+      "grad_norm": 0.6131384968757629,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 1.0446,
+      "step": 26
+    },
+    {
+      "epoch": 0.010440078300587255,
+      "grad_norm": 0.7854299545288086,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 1.1503,
+      "step": 27
+    },
+    {
+      "epoch": 0.01082674786727567,
+      "grad_norm": 0.8582091927528381,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 1.2987,
+      "step": 28
+    },
+    {
+      "epoch": 0.011213417433964088,
+      "grad_norm": 0.8346323370933533,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 1.3962,
+      "step": 29
+    },
+    {
+      "epoch": 0.011600087000652504,
+      "grad_norm": 0.8909927606582642,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 1.3144,
+      "step": 30
+    },
+    {
+      "epoch": 0.011986756567340922,
+      "grad_norm": 0.9254404902458191,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 1.147,
+      "step": 31
+    },
+    {
+      "epoch": 0.012373426134029338,
+      "grad_norm": 0.9486504793167114,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 1.173,
+      "step": 32
+    },
+    {
+      "epoch": 0.012760095700717755,
+      "grad_norm": 1.0398434400558472,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 1.1825,
+      "step": 33
+    },
+    {
+      "epoch": 0.013146765267406171,
+      "grad_norm": 1.1759663820266724,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 1.2143,
+      "step": 34
+    },
+    {
+      "epoch": 0.013533434834094589,
+      "grad_norm": 1.3558342456817627,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 1.2427,
+      "step": 35
+    },
+    {
+      "epoch": 0.013920104400783007,
+      "grad_norm": 1.5557582378387451,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 1.3781,
+      "step": 36
+    },
+    {
+      "epoch": 0.014306773967471422,
+      "grad_norm": 2.1621055603027344,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 1.2148,
+      "step": 37
+    },
+    {
+      "epoch": 0.01469344353415984,
+      "grad_norm": 0.437295526266098,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 1.0218,
+      "step": 38
+    },
+    {
+      "epoch": 0.015080113100848256,
+      "grad_norm": 0.5033637881278992,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 1.0787,
+      "step": 39
+    },
+    {
+      "epoch": 0.015466782667536674,
+      "grad_norm": 0.5792263150215149,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 1.171,
+      "step": 40
+    },
+    {
+      "epoch": 0.01585345223422509,
+      "grad_norm": 0.6566769480705261,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 1.3454,
+      "step": 41
+    },
+    {
+      "epoch": 0.016240121800913505,
+      "grad_norm": 0.9425048232078552,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 1.269,
+      "step": 42
+    },
+    {
+      "epoch": 0.016626791367601923,
+      "grad_norm": 0.7594242691993713,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 1.1869,
+      "step": 43
+    },
+    {
+      "epoch": 0.01701346093429034,
+      "grad_norm": 0.8492668271064758,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 1.2103,
+      "step": 44
+    },
+    {
+      "epoch": 0.017400130500978758,
+      "grad_norm": 1.0016244649887085,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 1.2328,
+      "step": 45
+    },
+    {
+      "epoch": 0.017786800067667176,
+      "grad_norm": 0.9997175335884094,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 1.102,
+      "step": 46
+    },
+    {
+      "epoch": 0.01817346963435559,
+      "grad_norm": 1.1904468536376953,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 1.1894,
+      "step": 47
+    },
+    {
+      "epoch": 0.018560139201044008,
+      "grad_norm": 1.2717448472976685,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 1.1643,
+      "step": 48
+    },
+    {
+      "epoch": 0.018946808767732425,
+      "grad_norm": 2.184945821762085,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 1.202,
+      "step": 49
+    },
+    {
+      "epoch": 0.019333478334420843,
+      "grad_norm": 2.2247934341430664,
+      "learning_rate": 1e-05,
+      "loss": 1.2018,
+      "step": 50
+    },
+    {
+      "epoch": 0.019333478334420843,
+      "eval_loss": 1.0809752941131592,
+      "eval_runtime": 2.043,
+      "eval_samples_per_second": 24.474,
+      "eval_steps_per_second": 6.363,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.969948642440643e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null