Training in progress, step 26, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28fe6d3c1091cf9ace3c8611ee75c7b1a56bbf548d29e785a09fe431d9cc9609
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2e1b990778a120ccda2f5d235054acea331ec703a816f3cd7476519676e1f78
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db44d6cf0bc539188038f333afdd409444527fcd4f804e9e14b9505469651c26
 size 111142

 version https://git-lfs.github.com/spec/v1
+oid sha256:91b730240c3478a38621f5fdffc0cc37a719fc56ea5b3f4fdd8b990527174ec8
 size 111142

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4dbde1c00c7bbbb78590b9f153543aaf73b06d579e7ebd79d0dbf2657dd356a
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:d13877ed3f59aa7198c8574c3fa03073b1b0fe0c1150b102e7c126b147c06058
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:914ceaffb2815a5f49006beff7c4bc68ebb7cfef6e90fb1589ff1be4ec34640b
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:6267e78b9753bf43c76319d17432b962781d32df9e944e6f3cc798be019cdac9
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5adea6def46a60dd5782726d51a89bdf0f30226cd791e511d8af09a5644f99e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e65bdb10468d12c8b6afa89fe8730e38a94a4f704431de04b0c1bf27440afce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12061467091910699,
   "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,105 @@
       "eval_samples_per_second": 365.979,
       "eval_steps_per_second": 91.621,
       "step": 13
     }
   ],
   "logging_steps": 1,
@@ -133,7 +232,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 21757817782272.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24122934183821398,
   "eval_steps": 13,
+  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 365.979,
       "eval_steps_per_second": 91.621,
       "step": 13
+    },
+    {
+      "epoch": 0.12989272252826906,
+      "grad_norm": 0.19280284643173218,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 10.3691,
+      "step": 14
+    },
+    {
+      "epoch": 0.13917077413743115,
+      "grad_norm": 0.17874455451965332,
+      "learning_rate": 8.296729075500344e-05,
+      "loss": 10.3717,
+      "step": 15
+    },
+    {
+      "epoch": 0.1484488257465932,
+      "grad_norm": 0.18887090682983398,
+      "learning_rate": 8.043807145043604e-05,
+      "loss": 10.3698,
+      "step": 16
+    },
+    {
+      "epoch": 0.1577268773557553,
+      "grad_norm": 0.19341035187244415,
+      "learning_rate": 7.777851165098012e-05,
+      "loss": 10.3722,
+      "step": 17
+    },
+    {
+      "epoch": 0.16700492896491737,
+      "grad_norm": 0.1979735940694809,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.371,
+      "step": 18
+    },
+    {
+      "epoch": 0.17628298057407946,
+      "grad_norm": 0.21226716041564941,
+      "learning_rate": 7.211443451095007e-05,
+      "loss": 10.369,
+      "step": 19
+    },
+    {
+      "epoch": 0.18556103218324152,
+      "grad_norm": 0.16405072808265686,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 10.3669,
+      "step": 20
+    },
+    {
+      "epoch": 0.19483908379240358,
+      "grad_norm": 0.22428028285503387,
+      "learning_rate": 6.607197326515808e-05,
+      "loss": 10.3651,
+      "step": 21
+    },
+    {
+      "epoch": 0.20411713540156567,
+      "grad_norm": 0.21658191084861755,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 10.369,
+      "step": 22
+    },
+    {
+      "epoch": 0.21339518701072774,
+      "grad_norm": 0.2103334218263626,
+      "learning_rate": 5.9754516100806423e-05,
+      "loss": 10.3723,
+      "step": 23
+    },
+    {
+      "epoch": 0.22267323861988983,
+      "grad_norm": 0.23737552762031555,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 10.3685,
+      "step": 24
+    },
+    {
+      "epoch": 0.2319512902290519,
+      "grad_norm": 0.20295554399490356,
+      "learning_rate": 5.327015646150716e-05,
+      "loss": 10.3618,
+      "step": 25
+    },
+    {
+      "epoch": 0.24122934183821398,
+      "grad_norm": 0.21819956600666046,
+      "learning_rate": 5e-05,
+      "loss": 10.3648,
+      "step": 26
+    },
+    {
+      "epoch": 0.24122934183821398,
+      "eval_loss": 10.364445686340332,
+      "eval_runtime": 1.9824,
+      "eval_samples_per_second": 366.719,
+      "eval_steps_per_second": 91.806,
+      "step": 26
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 43515635564544.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null