Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4fbbb9f62958c897c43cd9a5c5d6d038f45ed677354628edd0108e1edcb9118
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:c18e085d42f170073c266faa07cda8666cb8c423042579a66b4662f48decac67
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ac320922865fe9265305a2a402e32430894fc71705dc508dc59544e6c1900df
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:175a3b90952e171404f8b1ad4d014934c98041226cdd2e7924bbd646132a68dc
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65d9923ac95d4aa4a298bd8ed065c1e1d7f9c926e4f6149f930b0b873ca9c5f4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e06e459b7c667b4a6e7f8a6a5a204523d051f7ba92ae0b9c5a6c9461a833ce6b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.010654165778819518,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 2.3799,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.015981248668229277,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 2.3799,
       "step": 50
+    },
+    {
+      "epoch": 0.010867249094395908,
+      "grad_norm": 1.7488001585006714,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 2.0902,
+      "step": 51
+    },
+    {
+      "epoch": 0.0110803324099723,
+      "grad_norm": 1.5967189073562622,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.3407,
+      "step": 52
+    },
+    {
+      "epoch": 0.01129341572554869,
+      "grad_norm": 1.6917262077331543,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.4421,
+      "step": 53
+    },
+    {
+      "epoch": 0.01150649904112508,
+      "grad_norm": 1.5144695043563843,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.1417,
+      "step": 54
+    },
+    {
+      "epoch": 0.01150649904112508,
+      "eval_loss": 2.2762832641601562,
+      "eval_runtime": 485.0012,
+      "eval_samples_per_second": 8.148,
+      "eval_steps_per_second": 1.019,
+      "step": 54
+    },
+    {
+      "epoch": 0.01171958235670147,
+      "grad_norm": 2.0978071689605713,
+      "learning_rate": 5e-05,
+      "loss": 2.368,
+      "step": 55
+    },
+    {
+      "epoch": 0.01193266567227786,
+      "grad_norm": 1.3823351860046387,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.2761,
+      "step": 56
+    },
+    {
+      "epoch": 0.012145748987854251,
+      "grad_norm": 1.401353120803833,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 2.4411,
+      "step": 57
+    },
+    {
+      "epoch": 0.012358832303430642,
+      "grad_norm": 1.5619628429412842,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 2.4282,
+      "step": 58
+    },
+    {
+      "epoch": 0.012571915619007033,
+      "grad_norm": 1.6720349788665771,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 2.1992,
+      "step": 59
+    },
+    {
+      "epoch": 0.012784998934583422,
+      "grad_norm": 1.9900810718536377,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.189,
+      "step": 60
+    },
+    {
+      "epoch": 0.012998082250159812,
+      "grad_norm": 1.8609704971313477,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 2.3073,
+      "step": 61
+    },
+    {
+      "epoch": 0.013211165565736203,
+      "grad_norm": 1.6070359945297241,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.2932,
+      "step": 62
+    },
+    {
+      "epoch": 0.013424248881312594,
+      "grad_norm": 1.7144007682800293,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 2.3884,
+      "step": 63
+    },
+    {
+      "epoch": 0.013424248881312594,
+      "eval_loss": 2.262110948562622,
+      "eval_runtime": 484.8431,
+      "eval_samples_per_second": 8.151,
+      "eval_steps_per_second": 1.019,
+      "step": 63
+    },
+    {
+      "epoch": 0.013637332196888983,
+      "grad_norm": 1.6447594165802002,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.4163,
+      "step": 64
+    },
+    {
+      "epoch": 0.013850415512465374,
+      "grad_norm": 1.65079927444458,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 2.2708,
+      "step": 65
+    },
+    {
+      "epoch": 0.014063498828041764,
+      "grad_norm": 1.7811284065246582,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 2.1705,
+      "step": 66
+    },
+    {
+      "epoch": 0.014276582143618155,
+      "grad_norm": 1.7202013731002808,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 2.3249,
+      "step": 67
+    },
+    {
+      "epoch": 0.014489665459194546,
+      "grad_norm": 1.7483406066894531,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.2645,
+      "step": 68
+    },
+    {
+      "epoch": 0.014702748774770935,
+      "grad_norm": 2.087839126586914,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 2.1354,
+      "step": 69
+    },
+    {
+      "epoch": 0.014915832090347326,
+      "grad_norm": 1.6836611032485962,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.2473,
+      "step": 70
+    },
+    {
+      "epoch": 0.015128915405923716,
+      "grad_norm": 1.3222910165786743,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.1784,
+      "step": 71
+    },
+    {
+      "epoch": 0.015341998721500107,
+      "grad_norm": 1.6349443197250366,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.0551,
+      "step": 72
+    },
+    {
+      "epoch": 0.015341998721500107,
+      "eval_loss": 2.254314422607422,
+      "eval_runtime": 484.9695,
+      "eval_samples_per_second": 8.149,
+      "eval_steps_per_second": 1.019,
+      "step": 72
+    },
+    {
+      "epoch": 0.015555082037076498,
+      "grad_norm": 1.65912926197052,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.325,
+      "step": 73
+    },
+    {
+      "epoch": 0.015768165352652887,
+      "grad_norm": 1.8558361530303955,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 2.5441,
+      "step": 74
+    },
+    {
+      "epoch": 0.015981248668229277,
+      "grad_norm": 1.7904530763626099,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 2.2417,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.56415462670336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null