Training in progress, step 27, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +74 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcff3819f2d8f358549556f4ab228fb736c1d56e961ebb558cd3063a90ffb5e5
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:f54285af820322f413bedf90a197fab9546824b126b677e531d7a3e34609c30c
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a992b6fdfdf746be8efbf1ff98980cad8d0f702da31dffa8aa721ccd2065560
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:28c7adf268e87dd0a41446aaa874ecc5ab743fb9a94da50a96ececdd5a3bee8f
 size 85723284

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b0a960eb7cbc41ec4c0d6750e9eac466c9ca6eb509aa83556250ea111b5363b
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fc23edab8ba1108a86a5e66e050703f0e0017d14e4377e9cbd25e332b216c4b
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e71edc115305704ae35e847cbd40ad2b847e46942216a521d42b019f652edc5b
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a43d18fc96a7898854e74a08413f3781a39c478df43b8b248b0577bb9030b97
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e86b20a5b94cd46faa4d64e6cf42c67c97d41b2661a560693dd74f1d50d8d7b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2bb4b588419b60e1f59dda48eeb3b428275266887083bc814e29c779f54f5c8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.518918918918919,
   "eval_steps": 9,
-  "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,77 @@
       "eval_samples_per_second": 10.199,
       "eval_steps_per_second": 2.571,
       "step": 18
     }
   ],
   "logging_steps": 1,
@@ -176,7 +247,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.0500259124045414e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7783783783783784,
   "eval_steps": 9,
+  "global_step": 27,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.199,
       "eval_steps_per_second": 2.571,
       "step": 18
+    },
+    {
+      "epoch": 0.5477477477477477,
+      "grad_norm": 3.7183847427368164,
+      "learning_rate": 4.762090420881289e-05,
+      "loss": 24.4091,
+      "step": 19
+    },
+    {
+      "epoch": 0.5765765765765766,
+      "grad_norm": 3.6958751678466797,
+      "learning_rate": 4.288425808633575e-05,
+      "loss": 22.3664,
+      "step": 20
+    },
+    {
+      "epoch": 0.6054054054054054,
+      "grad_norm": 3.622276544570923,
+      "learning_rate": 3.821205322452863e-05,
+      "loss": 23.2693,
+      "step": 21
+    },
+    {
+      "epoch": 0.6342342342342342,
+      "grad_norm": 3.4962754249572754,
+      "learning_rate": 3.364660183412892e-05,
+      "loss": 23.2194,
+      "step": 22
+    },
+    {
+      "epoch": 0.6630630630630631,
+      "grad_norm": 4.327157020568848,
+      "learning_rate": 2.9229249349905684e-05,
+      "loss": 22.1926,
+      "step": 23
+    },
+    {
+      "epoch": 0.6918918918918919,
+      "grad_norm": 3.3497116565704346,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 23.5823,
+      "step": 24
+    },
+    {
+      "epoch": 0.7207207207207207,
+      "grad_norm": 3.5109105110168457,
+      "learning_rate": 2.09971545214401e-05,
+      "loss": 23.8332,
+      "step": 25
+    },
+    {
+      "epoch": 0.7495495495495496,
+      "grad_norm": 3.7513277530670166,
+      "learning_rate": 1.725696330273575e-05,
+      "loss": 22.0996,
+      "step": 26
+    },
+    {
+      "epoch": 0.7783783783783784,
+      "grad_norm": 3.768648147583008,
+      "learning_rate": 1.3813298094746491e-05,
+      "loss": 23.2716,
+      "step": 27
+    },
+    {
+      "epoch": 0.7783783783783784,
+      "eval_loss": 0.7317541241645813,
+      "eval_runtime": 22.9476,
+      "eval_samples_per_second": 10.197,
+      "eval_steps_per_second": 2.571,
+      "step": 27
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.075038868606812e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null