Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b3e6beb222c15f1dc321f9db2d9c46ce05901c265f102d04df2051917cfd310
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:189fbc9395719e60d6550327269a856cc15c1e29099ab00bfd701c4f21e2e011
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4306a29be05a683d7fb5bd18f166b4f18749635a0ab2c91be88a3d236bd6b33
 size 90365754

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfc1c02530bd4e977feb06ab96497a9aba172d34eb315aebe466d3b2f9312616
 size 90365754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:026030288cd601691b26a9dd3addc963d8372e0cdb3ae5ae397bb1e558a3e4d2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4a797e4556a00e672702ff04c6ecce740fabaca58e7ff5b6ddf14351f843364
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.17667844522968199,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 2.7125,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4838612847820800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.26501766784452296,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 2.7125,
       "step": 50
+    },
+    {
+      "epoch": 0.18021201413427562,
+      "grad_norm": 3.0649173259735107,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 2.8662,
+      "step": 51
+    },
+    {
+      "epoch": 0.18374558303886926,
+      "grad_norm": 3.1530253887176514,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.6954,
+      "step": 52
+    },
+    {
+      "epoch": 0.1872791519434629,
+      "grad_norm": 3.109790802001953,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.9053,
+      "step": 53
+    },
+    {
+      "epoch": 0.19081272084805653,
+      "grad_norm": 3.0539212226867676,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.7137,
+      "step": 54
+    },
+    {
+      "epoch": 0.19081272084805653,
+      "eval_loss": 2.8013288974761963,
+      "eval_runtime": 7.2778,
+      "eval_samples_per_second": 32.84,
+      "eval_steps_per_second": 4.122,
+      "step": 54
+    },
+    {
+      "epoch": 0.19434628975265017,
+      "grad_norm": 3.252530574798584,
+      "learning_rate": 5e-05,
+      "loss": 2.8904,
+      "step": 55
+    },
+    {
+      "epoch": 0.1978798586572438,
+      "grad_norm": 3.2859199047088623,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.8972,
+      "step": 56
+    },
+    {
+      "epoch": 0.20141342756183744,
+      "grad_norm": 3.0715034008026123,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 2.6976,
+      "step": 57
+    },
+    {
+      "epoch": 0.2049469964664311,
+      "grad_norm": 3.305929660797119,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.0879,
+      "step": 58
+    },
+    {
+      "epoch": 0.20848056537102475,
+      "grad_norm": 2.9862401485443115,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 2.7462,
+      "step": 59
+    },
+    {
+      "epoch": 0.21201413427561838,
+      "grad_norm": 3.282827138900757,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.9555,
+      "step": 60
+    },
+    {
+      "epoch": 0.21554770318021202,
+      "grad_norm": 3.254582405090332,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 2.7325,
+      "step": 61
+    },
+    {
+      "epoch": 0.21908127208480566,
+      "grad_norm": 3.2542083263397217,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.9844,
+      "step": 62
+    },
+    {
+      "epoch": 0.2226148409893993,
+      "grad_norm": 3.1028382778167725,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.0317,
+      "step": 63
+    },
+    {
+      "epoch": 0.2226148409893993,
+      "eval_loss": 2.7716846466064453,
+      "eval_runtime": 7.2764,
+      "eval_samples_per_second": 32.846,
+      "eval_steps_per_second": 4.123,
+      "step": 63
+    },
+    {
+      "epoch": 0.22614840989399293,
+      "grad_norm": 2.934584617614746,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.6931,
+      "step": 64
+    },
+    {
+      "epoch": 0.22968197879858657,
+      "grad_norm": 2.996783971786499,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 2.6433,
+      "step": 65
+    },
+    {
+      "epoch": 0.2332155477031802,
+      "grad_norm": 3.002028465270996,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 2.8005,
+      "step": 66
+    },
+    {
+      "epoch": 0.23674911660777384,
+      "grad_norm": 3.1908152103424072,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 2.568,
+      "step": 67
+    },
+    {
+      "epoch": 0.24028268551236748,
+      "grad_norm": 3.1398322582244873,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.8163,
+      "step": 68
+    },
+    {
+      "epoch": 0.24381625441696114,
+      "grad_norm": 3.36586332321167,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 2.7572,
+      "step": 69
+    },
+    {
+      "epoch": 0.24734982332155478,
+      "grad_norm": 3.007260799407959,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.9016,
+      "step": 70
+    },
+    {
+      "epoch": 0.2508833922261484,
+      "grad_norm": 3.0115766525268555,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.766,
+      "step": 71
+    },
+    {
+      "epoch": 0.254416961130742,
+      "grad_norm": 3.172506809234619,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.9897,
+      "step": 72
+    },
+    {
+      "epoch": 0.254416961130742,
+      "eval_loss": 2.7495005130767822,
+      "eval_runtime": 7.2746,
+      "eval_samples_per_second": 32.854,
+      "eval_steps_per_second": 4.124,
+      "step": 72
+    },
+    {
+      "epoch": 0.2579505300353357,
+      "grad_norm": 3.1129682064056396,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.82,
+      "step": 73
+    },
+    {
+      "epoch": 0.26148409893992935,
+      "grad_norm": 3.208728551864624,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 2.8844,
+      "step": 74
+    },
+    {
+      "epoch": 0.26501766784452296,
+      "grad_norm": 3.0997607707977295,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 2.7786,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7257919271731200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null