Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a6d692fd10b5f868b3318595b44226ca60a04c02d1283b710cee7755c78a201
 size 239452242

 version https://git-lfs.github.com/spec/v1
+oid sha256:a38e22abc216800c8e88eeef8ea47987853da7e184938f098df5541c87ef70aa
 size 239452242

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eda9302b7fbda5c98057a64fb568900b7da3d7c5c4c2744a668e90007d62867d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f17a41a58c437540d59a325163d8438ba1d9ddee00bc7ae18f589070b0100d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef7bf070e527a9b5896b7711e9e6af634052f75dbe8f4acb6da29f40d856bc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.16501650165016502,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9222053953536000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.33003300330033003,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
+    },
+    {
+      "epoch": 0.1716171617161716,
+      "grad_norm": NaN,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.1782178217821782,
+      "grad_norm": NaN,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.1782178217821782,
+      "eval_loss": NaN,
+      "eval_runtime": 9.409,
+      "eval_samples_per_second": 13.604,
+      "eval_steps_per_second": 1.7,
+      "step": 27
+    },
+    {
+      "epoch": 0.1848184818481848,
+      "grad_norm": NaN,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.19141914191419143,
+      "grad_norm": NaN,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.19801980198019803,
+      "grad_norm": NaN,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.20462046204620463,
+      "grad_norm": NaN,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.21122112211221122,
+      "grad_norm": NaN,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.21782178217821782,
+      "grad_norm": NaN,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.22442244224422442,
+      "grad_norm": NaN,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.23102310231023102,
+      "grad_norm": NaN,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.2376237623762376,
+      "grad_norm": NaN,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.2376237623762376,
+      "eval_loss": NaN,
+      "eval_runtime": 9.4108,
+      "eval_samples_per_second": 13.601,
+      "eval_steps_per_second": 1.7,
+      "step": 36
+    },
+    {
+      "epoch": 0.24422442244224424,
+      "grad_norm": NaN,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.2508250825082508,
+      "grad_norm": NaN,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.25742574257425743,
+      "grad_norm": NaN,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.264026402640264,
+      "grad_norm": NaN,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.2706270627062706,
+      "grad_norm": NaN,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.27722772277227725,
+      "grad_norm": NaN,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.2838283828382838,
+      "grad_norm": NaN,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.29042904290429045,
+      "grad_norm": NaN,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.297029702970297,
+      "grad_norm": NaN,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.297029702970297,
+      "eval_loss": NaN,
+      "eval_runtime": 9.3931,
+      "eval_samples_per_second": 13.627,
+      "eval_steps_per_second": 1.703,
+      "step": 45
+    },
+    {
+      "epoch": 0.30363036303630364,
+      "grad_norm": NaN,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.3102310231023102,
+      "grad_norm": NaN,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.31683168316831684,
+      "grad_norm": NaN,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.3234323432343234,
+      "grad_norm": NaN,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.33003300330033003,
+      "grad_norm": NaN,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8444107907072e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null