Training in progress, step 56, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +110 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65404fcba803e23e53086ab488dde090b236bd4a10fdff1f3a362e117647386f
 size 14696

 version https://git-lfs.github.com/spec/v1
+oid sha256:e019a9f57ecb8b85aec8bb6eee672a122e591e36bd2565bc6c4c332b190d0fc5
 size 14696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:781a3ba2ec16b5917dc91ce4dbf65b6416c24180b4df590c64bdb07408768a47
 size 39398

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdac6c649202ef2291ed5061c16538bc0530983fc22e3831ec5e6375e3ece8d5
 size 39398

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ec1fe9c39ff4b5f539b12a8ca1b294f1888da074b9e285a01034d20290d60d4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f3d68d08c427bfcb26826cb256501e784dd1de9309d24ccf5d718c10dd6b5c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e60975a7e32769ae56ab7bbabcff8a55576b728ed866489161a176028dde2134
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e41d236d9989ea458dc3f7994dccaa194aab3668a60eebd5db6cd4583a97af79
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7508379888268156,
   "eval_steps": 14,
-  "global_step": 42,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -333,6 +333,112 @@
       "eval_samples_per_second": 249.752,
       "eval_steps_per_second": 126.19,
       "step": 42
     }
   ],
   "logging_steps": 1,
@@ -347,12 +453,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 19851116544.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0033519553072625,
   "eval_steps": 14,
+  "global_step": 56,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 249.752,
       "eval_steps_per_second": 126.19,
       "step": 42
+    },
+    {
+      "epoch": 0.7687150837988826,
+      "grad_norm": 0.010876229964196682,
+      "learning_rate": 1.8445602783697374e-05,
+      "loss": 11.9305,
+      "step": 43
+    },
+    {
+      "epoch": 0.7865921787709497,
+      "grad_norm": 0.008084769360721111,
+      "learning_rate": 1.5872342839067306e-05,
+      "loss": 11.9299,
+      "step": 44
+    },
+    {
+      "epoch": 0.8044692737430168,
+      "grad_norm": 0.009019813500344753,
+      "learning_rate": 1.3458201786093794e-05,
+      "loss": 11.9283,
+      "step": 45
+    },
+    {
+      "epoch": 0.8223463687150838,
+      "grad_norm": 0.008098295889794827,
+      "learning_rate": 1.1214435464779006e-05,
+      "loss": 11.9292,
+      "step": 46
+    },
+    {
+      "epoch": 0.8402234636871508,
+      "grad_norm": 0.008133570663630962,
+      "learning_rate": 9.151505349477902e-06,
+      "loss": 11.9289,
+      "step": 47
+    },
+    {
+      "epoch": 0.8581005586592179,
+      "grad_norm": 0.012650455348193645,
+      "learning_rate": 7.2790297726755716e-06,
+      "loss": 11.9302,
+      "step": 48
+    },
+    {
+      "epoch": 0.8759776536312849,
+      "grad_norm": 0.009691119194030762,
+      "learning_rate": 5.605739079881239e-06,
+      "loss": 11.9307,
+      "step": 49
+    },
+    {
+      "epoch": 0.8938547486033519,
+      "grad_norm": 0.009178046137094498,
+      "learning_rate": 4.139434924727359e-06,
+      "loss": 11.9297,
+      "step": 50
+    },
+    {
+      "epoch": 0.911731843575419,
+      "grad_norm": 0.008271483704447746,
+      "learning_rate": 2.88695389405898e-06,
+      "loss": 11.9291,
+      "step": 51
+    },
+    {
+      "epoch": 0.929608938547486,
+      "grad_norm": 0.00795311015099287,
+      "learning_rate": 1.8541356326100433e-06,
+      "loss": 11.9286,
+      "step": 52
+    },
+    {
+      "epoch": 0.9474860335195531,
+      "grad_norm": 0.008445663377642632,
+      "learning_rate": 1.0457956158838544e-06,
+      "loss": 11.932,
+      "step": 53
+    },
+    {
+      "epoch": 0.9653631284916201,
+      "grad_norm": 0.009014743380248547,
+      "learning_rate": 4.6570269818346224e-07,
+      "loss": 11.9283,
+      "step": 54
+    },
+    {
+      "epoch": 0.9832402234636871,
+      "grad_norm": 0.009628918021917343,
+      "learning_rate": 1.1656154047303691e-07,
+      "loss": 11.9317,
+      "step": 55
+    },
+    {
+      "epoch": 1.0033519553072625,
+      "grad_norm": 0.00985956471413374,
+      "learning_rate": 0.0,
+      "loss": 13.9592,
+      "step": 56
+    },
+    {
+      "epoch": 1.0033519553072625,
+      "eval_loss": 11.928487777709961,
+      "eval_runtime": 0.3738,
+      "eval_samples_per_second": 254.136,
+      "eval_steps_per_second": 128.405,
+      "step": 56
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 26468155392.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null