Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd4544005ba9af2512e5e33b0215f95de4a19c41e46e6604cdf19eac8db0a9a8
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:f434c58c47621bd05e9f910274c111977fde022648675ed0c9fba17f39b1b44f
 size 645975704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:326e5666281ba529f2da74465415ff06e2283e83ebc57ead7e857c2d5733387d
 size 328468404

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b7b98b811f2a024b2fa9e457f86637d06c54905a4fed1538698e92f58beaa3d
 size 328468404

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b18cfbf249eaf5efacc990ff51b4ec711411ae2f0ccb1660bc7e93cc429338e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:976a489fc15f58294d879d44ac4f7737be8fcb89ac3c7231f0e3d8123b0ed9ce
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.6282694339752197,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.024387269845140835,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 13.594,
       "eval_steps_per_second": 3.401,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.28717951238144e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.1385467052459717,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.04877453969028167,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.594,
       "eval_steps_per_second": 3.401,
       "step": 50
+    },
+    {
+      "epoch": 0.024875015242043653,
+      "grad_norm": 2.525137424468994,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 3.3201,
+      "step": 51
+    },
+    {
+      "epoch": 0.02536276063894647,
+      "grad_norm": 1.9298559427261353,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 2.8963,
+      "step": 52
+    },
+    {
+      "epoch": 0.025850506035849288,
+      "grad_norm": 1.562819480895996,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 2.8588,
+      "step": 53
+    },
+    {
+      "epoch": 0.026338251432752105,
+      "grad_norm": 1.0883809328079224,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 2.6198,
+      "step": 54
+    },
+    {
+      "epoch": 0.02682599682965492,
+      "grad_norm": 1.0330435037612915,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 2.5798,
+      "step": 55
+    },
+    {
+      "epoch": 0.027313742226557736,
+      "grad_norm": 1.270867109298706,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 2.6996,
+      "step": 56
+    },
+    {
+      "epoch": 0.027801487623460554,
+      "grad_norm": 1.1742101907730103,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 2.6916,
+      "step": 57
+    },
+    {
+      "epoch": 0.02828923302036337,
+      "grad_norm": 1.0894042253494263,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 2.5709,
+      "step": 58
+    },
+    {
+      "epoch": 0.02877697841726619,
+      "grad_norm": 1.244813084602356,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 2.6457,
+      "step": 59
+    },
+    {
+      "epoch": 0.029264723814169002,
+      "grad_norm": 1.0746277570724487,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 2.2518,
+      "step": 60
+    },
+    {
+      "epoch": 0.02975246921107182,
+      "grad_norm": 1.1548517942428589,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 2.3314,
+      "step": 61
+    },
+    {
+      "epoch": 0.030240214607974637,
+      "grad_norm": 1.1649878025054932,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 2.4831,
+      "step": 62
+    },
+    {
+      "epoch": 0.030727960004877455,
+      "grad_norm": 1.2175664901733398,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 2.0127,
+      "step": 63
+    },
+    {
+      "epoch": 0.031215705401780272,
+      "grad_norm": 1.2224698066711426,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 2.3575,
+      "step": 64
+    },
+    {
+      "epoch": 0.031703450798683086,
+      "grad_norm": 1.2590465545654297,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 2.2152,
+      "step": 65
+    },
+    {
+      "epoch": 0.03219119619558591,
+      "grad_norm": 1.3008689880371094,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 2.2786,
+      "step": 66
+    },
+    {
+      "epoch": 0.03267894159248872,
+      "grad_norm": 1.5196938514709473,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 2.2248,
+      "step": 67
+    },
+    {
+      "epoch": 0.033166686989391535,
+      "grad_norm": 1.4997824430465698,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 2.3649,
+      "step": 68
+    },
+    {
+      "epoch": 0.033654432386294356,
+      "grad_norm": 1.448543906211853,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 2.0617,
+      "step": 69
+    },
+    {
+      "epoch": 0.03414217778319717,
+      "grad_norm": 1.5949437618255615,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 2.1539,
+      "step": 70
+    },
+    {
+      "epoch": 0.03462992318009999,
+      "grad_norm": 1.6336168050765991,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 2.128,
+      "step": 71
+    },
+    {
+      "epoch": 0.035117668577002804,
+      "grad_norm": 1.8401151895523071,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 2.2938,
+      "step": 72
+    },
+    {
+      "epoch": 0.03560541397390562,
+      "grad_norm": 1.8767706155776978,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 2.2114,
+      "step": 73
+    },
+    {
+      "epoch": 0.03609315937080844,
+      "grad_norm": 1.8363771438598633,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 2.0475,
+      "step": 74
+    },
+    {
+      "epoch": 0.03658090476771125,
+      "grad_norm": 2.051151990890503,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 2.4243,
+      "step": 75
+    },
+    {
+      "epoch": 0.037068650164614074,
+      "grad_norm": 2.10811185836792,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 2.0605,
+      "step": 76
+    },
+    {
+      "epoch": 0.03755639556151689,
+      "grad_norm": 2.5270118713378906,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 2.4051,
+      "step": 77
+    },
+    {
+      "epoch": 0.0380441409584197,
+      "grad_norm": 2.524273633956909,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 2.5405,
+      "step": 78
+    },
+    {
+      "epoch": 0.03853188635532252,
+      "grad_norm": 2.4887049198150635,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 2.4866,
+      "step": 79
+    },
+    {
+      "epoch": 0.03901963175222534,
+      "grad_norm": 2.3588764667510986,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 2.0816,
+      "step": 80
+    },
+    {
+      "epoch": 0.03950737714912816,
+      "grad_norm": 2.476278781890869,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 2.1117,
+      "step": 81
+    },
+    {
+      "epoch": 0.03999512254603097,
+      "grad_norm": 2.739741325378418,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 2.1998,
+      "step": 82
+    },
+    {
+      "epoch": 0.040482867942933785,
+      "grad_norm": 2.7698280811309814,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.9936,
+      "step": 83
+    },
+    {
+      "epoch": 0.040970613339836606,
+      "grad_norm": 2.5614287853240967,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 2.0132,
+      "step": 84
+    },
+    {
+      "epoch": 0.04145835873673942,
+      "grad_norm": 3.0431385040283203,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 2.0992,
+      "step": 85
+    },
+    {
+      "epoch": 0.04194610413364224,
+      "grad_norm": 3.1751694679260254,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 2.512,
+      "step": 86
+    },
+    {
+      "epoch": 0.042433849530545055,
+      "grad_norm": 2.9213707447052,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 2.0407,
+      "step": 87
+    },
+    {
+      "epoch": 0.04292159492744787,
+      "grad_norm": 2.7673933506011963,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 2.0313,
+      "step": 88
+    },
+    {
+      "epoch": 0.04340934032435069,
+      "grad_norm": 3.18284010887146,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 2.1928,
+      "step": 89
+    },
+    {
+      "epoch": 0.043897085721253504,
+      "grad_norm": 3.1404869556427,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 2.0266,
+      "step": 90
+    },
+    {
+      "epoch": 0.044384831118156325,
+      "grad_norm": 3.900766372680664,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 2.2138,
+      "step": 91
+    },
+    {
+      "epoch": 0.04487257651505914,
+      "grad_norm": 3.2854883670806885,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 2.0153,
+      "step": 92
+    },
+    {
+      "epoch": 0.04536032191196195,
+      "grad_norm": 3.054872989654541,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.7195,
+      "step": 93
+    },
+    {
+      "epoch": 0.04584806730886477,
+      "grad_norm": 3.2677552700042725,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.8897,
+      "step": 94
+    },
+    {
+      "epoch": 0.04633581270576759,
+      "grad_norm": 3.4859201908111572,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.8254,
+      "step": 95
+    },
+    {
+      "epoch": 0.04682355810267041,
+      "grad_norm": 3.594351053237915,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.9488,
+      "step": 96
+    },
+    {
+      "epoch": 0.04731130349957322,
+      "grad_norm": 4.0036163330078125,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 2.01,
+      "step": 97
+    },
+    {
+      "epoch": 0.04779904889647604,
+      "grad_norm": 4.132566452026367,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 2.0372,
+      "step": 98
+    },
+    {
+      "epoch": 0.04828679429337886,
+      "grad_norm": 4.630672454833984,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 2.1507,
+      "step": 99
+    },
+    {
+      "epoch": 0.04877453969028167,
+      "grad_norm": 6.598683834075928,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 2.1817,
+      "step": 100
+    },
+    {
+      "epoch": 0.04877453969028167,
+      "eval_loss": 2.1385467052459717,
+      "eval_runtime": 254.8774,
+      "eval_samples_per_second": 13.548,
+      "eval_steps_per_second": 3.39,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4609906241896448e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null