Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba092aeebb341cdbfbd370ccf778b54a0de00a769e2eaac838ae56b54e7661af
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8f688607a103334792dd0dbdabc876d88f12baf0d485939e1bb7d9c5d94d9f3
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cba73c9a73345d08fd82fdd42bac41f2c8c3df2c72abdc8acea64cb5d7b3d4db
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cec92d5db184342e08b5c2091d3022ef7a7ad2d04ac50e8a9c1e6d1c7e91d93
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83e5c0d2f6e16662ae664dcc14da7384216d95ab0989e4d14c46d76031416a54
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6831e78748629a208441957e8a8b44b029be106b422b556f3fb41dc7c638a746
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81b6fd9a6acefb3dfca75793eef78c225a0220293e005f732bc86e0472217faf
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cbbabde0fa167b0bea4f631bdfbd633584b00ff0a9841484e85cbeece906076
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff84dec02b516483cf273c72266999f537bdc264c295eec0bc033be9968978e0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b23fb634e1563db3524310c5062cf9abb422e9393541f5f3713ebbaf34df9e7
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0eda83b3367b33abeca80f247529abfd85da9ea6590a2a4180d0d1f57fd64665
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed0293175089a0c1fd72d417292344ab73e27d0e7b16c86961810a8bbffcf88d
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.4408059120178223,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.11611030478955008,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 34.772,
       "eval_steps_per_second": 4.361,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.829010669142016e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.4380993843078613,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.23222060957910015,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 34.772,
       "eval_steps_per_second": 4.361,
       "step": 25
+    },
+    {
+      "epoch": 0.12075471698113208,
+      "grad_norm": 4.795568466186523,
+      "learning_rate": 5e-05,
+      "loss": 39.1343,
+      "step": 26
+    },
+    {
+      "epoch": 0.1253991291727141,
+      "grad_norm": 3.2405567169189453,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 38.7532,
+      "step": 27
+    },
+    {
+      "epoch": 0.13004354136429608,
+      "grad_norm": 5.771948337554932,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 39.101,
+      "step": 28
+    },
+    {
+      "epoch": 0.1346879535558781,
+      "grad_norm": 3.4326815605163574,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 38.9454,
+      "step": 29
+    },
+    {
+      "epoch": 0.13933236574746008,
+      "grad_norm": 3.43658709526062,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 38.9556,
+      "step": 30
+    },
+    {
+      "epoch": 0.1439767779390421,
+      "grad_norm": 3.410074234008789,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 38.6949,
+      "step": 31
+    },
+    {
+      "epoch": 0.14862119013062408,
+      "grad_norm": 5.686588764190674,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 39.001,
+      "step": 32
+    },
+    {
+      "epoch": 0.1532656023222061,
+      "grad_norm": 6.059488296508789,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 38.9599,
+      "step": 33
+    },
+    {
+      "epoch": 0.1579100145137881,
+      "grad_norm": 2.6913771629333496,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 38.8897,
+      "step": 34
+    },
+    {
+      "epoch": 0.1625544267053701,
+      "grad_norm": 5.513960361480713,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 39.0676,
+      "step": 35
+    },
+    {
+      "epoch": 0.1671988388969521,
+      "grad_norm": 5.725325107574463,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 39.1765,
+      "step": 36
+    },
+    {
+      "epoch": 0.1718432510885341,
+      "grad_norm": 5.873344421386719,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 39.2086,
+      "step": 37
+    },
+    {
+      "epoch": 0.1764876632801161,
+      "grad_norm": 3.324930429458618,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 39.1892,
+      "step": 38
+    },
+    {
+      "epoch": 0.1811320754716981,
+      "grad_norm": 2.964777708053589,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 38.8899,
+      "step": 39
+    },
+    {
+      "epoch": 0.18577648766328012,
+      "grad_norm": 5.145974159240723,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 39.1062,
+      "step": 40
+    },
+    {
+      "epoch": 0.19042089985486213,
+      "grad_norm": 8.25501823425293,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 39.1174,
+      "step": 41
+    },
+    {
+      "epoch": 0.19506531204644412,
+      "grad_norm": 3.121748685836792,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 39.2661,
+      "step": 42
+    },
+    {
+      "epoch": 0.19970972423802613,
+      "grad_norm": 3.468531370162964,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 39.0278,
+      "step": 43
+    },
+    {
+      "epoch": 0.20435413642960812,
+      "grad_norm": 4.092856407165527,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 39.0982,
+      "step": 44
+    },
+    {
+      "epoch": 0.20899854862119013,
+      "grad_norm": 2.102933645248413,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 38.8047,
+      "step": 45
+    },
+    {
+      "epoch": 0.21364296081277212,
+      "grad_norm": 2.4421029090881348,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 38.9213,
+      "step": 46
+    },
+    {
+      "epoch": 0.21828737300435413,
+      "grad_norm": 3.9166147708892822,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 38.7526,
+      "step": 47
+    },
+    {
+      "epoch": 0.22293178519593615,
+      "grad_norm": 2.536597728729248,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 39.1025,
+      "step": 48
+    },
+    {
+      "epoch": 0.22757619738751814,
+      "grad_norm": 3.9472765922546387,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 39.1247,
+      "step": 49
+    },
+    {
+      "epoch": 0.23222060957910015,
+      "grad_norm": 5.60849142074585,
+      "learning_rate": 0.0,
+      "loss": 39.064,
+      "step": 50
+    },
+    {
+      "epoch": 0.23222060957910015,
+      "eval_loss": 2.4380993843078613,
+      "eval_runtime": 41.6085,
+      "eval_samples_per_second": 34.873,
+      "eval_steps_per_second": 4.374,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.658021338284032e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null