Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02f50327f24c8ee32bf94b9aa2e55aabd22d829e5ca94a84f4b195317a246c57
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:49b9d6e2a783a0fda536017f61c0ad1922fe44b1c8779fbc2b954d03226b6921
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:672c8c4471052feca2feb25aaa96d87c5c5af101766a9175d30e356dca67f2f5
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:face4b94a1ca90b0023da6688e996564874d84dc853878dd1892d6d02e349a1f
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5c444494cc1966e8c38914400d06b2c503ea868e16c9068f49953e70f65f014
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1e62e379e5c95a4ce14fb770553a251c19d0b44309e01a2a59b1f71883aac6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7835716009140015,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.29027576197387517,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 11.732,
       "eval_steps_per_second": 2.953,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.73309481648128e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.7677788734436035,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.5805515239477503,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.732,
       "eval_steps_per_second": 2.953,
       "step": 50
+    },
+    {
+      "epoch": 0.2960812772133527,
+      "grad_norm": 0.40847522020339966,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 1.8509,
+      "step": 51
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "grad_norm": 0.41111356019973755,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.8034,
+      "step": 52
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 0.39087432622909546,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.8401,
+      "step": 53
+    },
+    {
+      "epoch": 0.3134978229317852,
+      "grad_norm": 0.39595600962638855,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.8924,
+      "step": 54
+    },
+    {
+      "epoch": 0.3193033381712627,
+      "grad_norm": 0.4029504060745239,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.7423,
+      "step": 55
+    },
+    {
+      "epoch": 0.3251088534107402,
+      "grad_norm": 0.3971380591392517,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.8423,
+      "step": 56
+    },
+    {
+      "epoch": 0.3309143686502177,
+      "grad_norm": 0.4342693090438843,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.7788,
+      "step": 57
+    },
+    {
+      "epoch": 0.3367198838896952,
+      "grad_norm": 0.38115909695625305,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 1.8777,
+      "step": 58
+    },
+    {
+      "epoch": 0.34252539912917274,
+      "grad_norm": 0.526332676410675,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 1.8461,
+      "step": 59
+    },
+    {
+      "epoch": 0.3483309143686502,
+      "grad_norm": 0.45587947964668274,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.6886,
+      "step": 60
+    },
+    {
+      "epoch": 0.35413642960812775,
+      "grad_norm": 0.40341612696647644,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.8618,
+      "step": 61
+    },
+    {
+      "epoch": 0.3599419448476052,
+      "grad_norm": 0.5133787393569946,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 1.6871,
+      "step": 62
+    },
+    {
+      "epoch": 0.36574746008708275,
+      "grad_norm": 0.45418137311935425,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 1.7365,
+      "step": 63
+    },
+    {
+      "epoch": 0.37155297532656023,
+      "grad_norm": 0.4577997028827667,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.7544,
+      "step": 64
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.44454094767570496,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.7263,
+      "step": 65
+    },
+    {
+      "epoch": 0.38316400580551524,
+      "grad_norm": 0.43912273645401,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 1.7176,
+      "step": 66
+    },
+    {
+      "epoch": 0.3889695210449927,
+      "grad_norm": 0.4508310854434967,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.8291,
+      "step": 67
+    },
+    {
+      "epoch": 0.39477503628447025,
+      "grad_norm": 0.46372470259666443,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.7316,
+      "step": 68
+    },
+    {
+      "epoch": 0.4005805515239477,
+      "grad_norm": 0.4595024585723877,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 1.7626,
+      "step": 69
+    },
+    {
+      "epoch": 0.40638606676342526,
+      "grad_norm": 0.47752857208251953,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.7949,
+      "step": 70
+    },
+    {
+      "epoch": 0.41219158200290273,
+      "grad_norm": 0.4701814353466034,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.884,
+      "step": 71
+    },
+    {
+      "epoch": 0.41799709724238027,
+      "grad_norm": 0.49096331000328064,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.8549,
+      "step": 72
+    },
+    {
+      "epoch": 0.42380261248185774,
+      "grad_norm": 0.5183019638061523,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.7396,
+      "step": 73
+    },
+    {
+      "epoch": 0.4296081277213353,
+      "grad_norm": 0.6562801599502563,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 1.8548,
+      "step": 74
+    },
+    {
+      "epoch": 0.43541364296081275,
+      "grad_norm": 0.5333163142204285,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.7933,
+      "step": 75
+    },
+    {
+      "epoch": 0.4412191582002903,
+      "grad_norm": 0.5598500370979309,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 1.764,
+      "step": 76
+    },
+    {
+      "epoch": 0.44702467343976776,
+      "grad_norm": 0.616254985332489,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.8519,
+      "step": 77
+    },
+    {
+      "epoch": 0.4528301886792453,
+      "grad_norm": 0.5128965973854065,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.6843,
+      "step": 78
+    },
+    {
+      "epoch": 0.45863570391872277,
+      "grad_norm": 0.5723729133605957,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.8211,
+      "step": 79
+    },
+    {
+      "epoch": 0.4644412191582003,
+      "grad_norm": 0.5582553148269653,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.7159,
+      "step": 80
+    },
+    {
+      "epoch": 0.4702467343976778,
+      "grad_norm": 0.6017863750457764,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.8328,
+      "step": 81
+    },
+    {
+      "epoch": 0.4760522496371553,
+      "grad_norm": 0.646784245967865,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.7488,
+      "step": 82
+    },
+    {
+      "epoch": 0.4818577648766328,
+      "grad_norm": 0.621480405330658,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.7754,
+      "step": 83
+    },
+    {
+      "epoch": 0.4876632801161103,
+      "grad_norm": 0.7075855731964111,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.6894,
+      "step": 84
+    },
+    {
+      "epoch": 0.4934687953555878,
+      "grad_norm": 0.8735288977622986,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.5269,
+      "step": 85
+    },
+    {
+      "epoch": 0.49927431059506533,
+      "grad_norm": 2.9787540435791016,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.7141,
+      "step": 86
+    },
+    {
+      "epoch": 0.5050798258345428,
+      "grad_norm": 0.8107753992080688,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 2.018,
+      "step": 87
+    },
+    {
+      "epoch": 0.5108853410740203,
+      "grad_norm": 0.42176181077957153,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 1.9651,
+      "step": 88
+    },
+    {
+      "epoch": 0.5166908563134979,
+      "grad_norm": 0.4151810109615326,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.789,
+      "step": 89
+    },
+    {
+      "epoch": 0.5224963715529753,
+      "grad_norm": 0.386679470539093,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.8299,
+      "step": 90
+    },
+    {
+      "epoch": 0.5283018867924528,
+      "grad_norm": 0.4106220602989197,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.8651,
+      "step": 91
+    },
+    {
+      "epoch": 0.5341074020319303,
+      "grad_norm": 0.39643245935440063,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.9113,
+      "step": 92
+    },
+    {
+      "epoch": 0.5399129172714079,
+      "grad_norm": 0.3862471580505371,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.8414,
+      "step": 93
+    },
+    {
+      "epoch": 0.5457184325108854,
+      "grad_norm": 0.3962131142616272,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.9122,
+      "step": 94
+    },
+    {
+      "epoch": 0.5515239477503628,
+      "grad_norm": 0.4000537395477295,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.723,
+      "step": 95
+    },
+    {
+      "epoch": 0.5573294629898403,
+      "grad_norm": 0.38008323311805725,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.8512,
+      "step": 96
+    },
+    {
+      "epoch": 0.5631349782293179,
+      "grad_norm": 0.38584694266319275,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.8828,
+      "step": 97
+    },
+    {
+      "epoch": 0.5689404934687954,
+      "grad_norm": 0.38245323300361633,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.6953,
+      "step": 98
+    },
+    {
+      "epoch": 0.5747460087082729,
+      "grad_norm": 0.4093793034553528,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.8376,
+      "step": 99
+    },
+    {
+      "epoch": 0.5805515239477503,
+      "grad_norm": 0.38503092527389526,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 1.8735,
+      "step": 100
+    },
+    {
+      "epoch": 0.5805515239477503,
+      "eval_loss": 1.7677788734436035,
+      "eval_runtime": 24.699,
+      "eval_samples_per_second": 11.741,
+      "eval_steps_per_second": 2.956,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1451856895921357e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null