Training in progress, step 12000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5bdcafd7e54ccfb54edd3811725f1984a354498d7153f053c3cdf7217ec9db4
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:12d89b6cfeb0fa2a639fb1d022803e910e636a1653929f3379ba8ecc07936d2d
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78e8caa6e190a79f2c47539fc7bdacd9073500128a21f89148735b0653b16ff7
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:16e8ca890c29387dcb94fe4fee166151a4647fb651f909dbd97850a259675cfe
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3d22d79498e9a42f44dadc83e0bfe26c6297fe6f1a1339b834940e632f50f9f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eee71f4c759651379c503d3028bec932d355f171dd7453ec6f5c469e966f747
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c19fddbbe59fe77d9c9931e2dfec577f342f095ed5843c735b486fb4141326d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b63e11db1a8e7c7a242100e7b3a9500ec8f1ad290a19c61a227cd5ed6d79dcc2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.1035689190030098,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-11000",
-  "epoch": 2.019847194168789,
   "eval_steps": 100,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2537,6 +2537,116 @@
       "eval_samples_per_second": 25.457,
       "eval_steps_per_second": 3.185,
       "step": 11500
     }
   ],
   "logging_steps": 50,
@@ -2556,7 +2666,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.601986322628608e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.10353059321641922,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-12000",
+  "epoch": 2.107666637393519,
   "eval_steps": 100,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.457,
       "eval_steps_per_second": 3.185,
       "step": 11500
+    },
+    {
+      "epoch": 2.028629138491262,
+      "grad_norm": 8534.212890625,
+      "learning_rate": 1.4783945195854559e-05,
+      "loss": 0.0969,
+      "step": 11550
+    },
+    {
+      "epoch": 2.037411082813735,
+      "grad_norm": 10853.4990234375,
+      "learning_rate": 1.4718074828737047e-05,
+      "loss": 0.1016,
+      "step": 11600
+    },
+    {
+      "epoch": 2.037411082813735,
+      "eval_loss": 0.10368319600820541,
+      "eval_runtime": 175.2089,
+      "eval_samples_per_second": 25.455,
+      "eval_steps_per_second": 3.185,
+      "step": 11600
+    },
+    {
+      "epoch": 2.046193027136208,
+      "grad_norm": 10575.98828125,
+      "learning_rate": 1.4652204461619534e-05,
+      "loss": 0.0993,
+      "step": 11650
+    },
+    {
+      "epoch": 2.054974971458681,
+      "grad_norm": 17123.625,
+      "learning_rate": 1.458633409450202e-05,
+      "loss": 0.1011,
+      "step": 11700
+    },
+    {
+      "epoch": 2.054974971458681,
+      "eval_loss": 0.10356248915195465,
+      "eval_runtime": 175.2585,
+      "eval_samples_per_second": 25.448,
+      "eval_steps_per_second": 3.184,
+      "step": 11700
+    },
+    {
+      "epoch": 2.0637569157811537,
+      "grad_norm": 13095.1728515625,
+      "learning_rate": 1.4520463727384507e-05,
+      "loss": 0.0956,
+      "step": 11750
+    },
+    {
+      "epoch": 2.0725388601036268,
+      "grad_norm": 11280.3291015625,
+      "learning_rate": 1.4454593360266995e-05,
+      "loss": 0.0969,
+      "step": 11800
+    },
+    {
+      "epoch": 2.0725388601036268,
+      "eval_loss": 0.10367120802402496,
+      "eval_runtime": 175.3325,
+      "eval_samples_per_second": 25.437,
+      "eval_steps_per_second": 3.183,
+      "step": 11800
+    },
+    {
+      "epoch": 2.0813208044261,
+      "grad_norm": 8861.095703125,
+      "learning_rate": 1.4388722993149482e-05,
+      "loss": 0.0971,
+      "step": 11850
+    },
+    {
+      "epoch": 2.090102748748573,
+      "grad_norm": 15480.5634765625,
+      "learning_rate": 1.432285262603197e-05,
+      "loss": 0.0977,
+      "step": 11900
+    },
+    {
+      "epoch": 2.090102748748573,
+      "eval_loss": 0.1037474200129509,
+      "eval_runtime": 175.4966,
+      "eval_samples_per_second": 25.414,
+      "eval_steps_per_second": 3.18,
+      "step": 11900
+    },
+    {
+      "epoch": 2.098884693071046,
+      "grad_norm": 10802.611328125,
+      "learning_rate": 1.4256982258914457e-05,
+      "loss": 0.0979,
+      "step": 11950
+    },
+    {
+      "epoch": 2.107666637393519,
+      "grad_norm": 7810.14111328125,
+      "learning_rate": 1.4191111891796943e-05,
+      "loss": 0.0963,
+      "step": 12000
+    },
+    {
+      "epoch": 2.107666637393519,
+      "eval_loss": 0.10353059321641922,
+      "eval_runtime": 175.3863,
+      "eval_samples_per_second": 25.43,
+      "eval_steps_per_second": 3.182,
+      "step": 12000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.845569478852608e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null