Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d09592663ebce3ca76edc6b1dc7c5b52a82e8b68c909135b3f5396017d4cf08
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6ea0d357987c22e19d62bc693ad25f9f75e8c29705927966891984bcfa15006
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80691a5d1b917dce75b40a22b97196c5b35cc85d6a247be8b2b413b4a00a30bc
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:360c92066fe24030b748d3e1a4a79cdad39167ce2d86a5cde6185f78d0be2afd
 size 157104826

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f3d0420f4db62c415afed106815a86180664afafea1a46eb1a620929057d64e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:72e4f40153d720af5a9bc2d43b6e8c0264d4a78ff7944cbfcd5eae1a40c99950
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fb35492667ef61a31726db189dfe16538df914ba267bbdcb060e3f1ab4c1e82
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:48e5a60fd5a260f9c83e80fb175afa680e039a9594b460e7b3c282c848321c17
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32527abdcebc720c825f16a7f3420d7d7097ac042dd8a0e585710ea60c9802ab
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:375a1f39f77328881cc4dff15556f86b1cf1c19b312aabc309ef42062f9242cc
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:743a4ce5a39d89cf04aefa9ed018507ca517a94d5397b4693e6903bda54804c3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0a8e7093cfc46d661e82fccdbf1eaa9abd9a2f1dda8b3d0a97ab63067e39050
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ddc0483fb60dd989ea0520ff2e69158bc6dd74d83a5562802d3d9255cecbc12
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:910cff932a69f6abbc99df6b748a086af6efc7922d876a1390fb1cf725edb026
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3951396942138672,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.8445500131960939,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 72.139,
       "eval_steps_per_second": 18.756,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.148081105207296e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.12606343626976013,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.6891000263921878,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 72.139,
       "eval_steps_per_second": 18.756,
       "step": 50
+    },
+    {
+      "epoch": 0.8614410134600158,
+      "grad_norm": 11.373549461364746,
+      "learning_rate": 0.000172161483570762,
+      "loss": 0.8296,
+      "step": 51
+    },
+    {
+      "epoch": 0.8783320137239378,
+      "grad_norm": 8.694587707519531,
+      "learning_rate": 0.0001709553414463167,
+      "loss": 0.7572,
+      "step": 52
+    },
+    {
+      "epoch": 0.8952230139878596,
+      "grad_norm": 10.283465385437012,
+      "learning_rate": 0.00016972862587414592,
+      "loss": 0.575,
+      "step": 53
+    },
+    {
+      "epoch": 0.9121140142517815,
+      "grad_norm": 10.08366870880127,
+      "learning_rate": 0.0001684817508912824,
+      "loss": 0.3361,
+      "step": 54
+    },
+    {
+      "epoch": 0.9290050145157034,
+      "grad_norm": 4.075512886047363,
+      "learning_rate": 0.00016721513733889716,
+      "loss": 0.2184,
+      "step": 55
+    },
+    {
+      "epoch": 0.9458960147796253,
+      "grad_norm": 4.301791191101074,
+      "learning_rate": 0.00016592921272025882,
+      "loss": 0.2137,
+      "step": 56
+    },
+    {
+      "epoch": 0.9627870150435471,
+      "grad_norm": 6.267927646636963,
+      "learning_rate": 0.0001646244110564441,
+      "loss": 0.3192,
+      "step": 57
+    },
+    {
+      "epoch": 0.979678015307469,
+      "grad_norm": 4.850979804992676,
+      "learning_rate": 0.00016330117273984822,
+      "loss": 0.2671,
+      "step": 58
+    },
+    {
+      "epoch": 0.9965690155713909,
+      "grad_norm": 7.005282402038574,
+      "learning_rate": 0.0001619599443855452,
+      "loss": 0.1437,
+      "step": 59
+    },
+    {
+      "epoch": 1.0134600158353126,
+      "grad_norm": 28.618061065673828,
+      "learning_rate": 0.00016060117868054789,
+      "loss": 0.4224,
+      "step": 60
+    },
+    {
+      "epoch": 1.0303510160992346,
+      "grad_norm": 4.588587284088135,
+      "learning_rate": 0.00015922533423101844,
+      "loss": 0.2437,
+      "step": 61
+    },
+    {
+      "epoch": 1.0472420163631564,
+      "grad_norm": 5.091424942016602,
+      "learning_rate": 0.00015783287540748105,
+      "loss": 0.2079,
+      "step": 62
+    },
+    {
+      "epoch": 1.0641330166270784,
+      "grad_norm": 4.7382025718688965,
+      "learning_rate": 0.00015642427218808918,
+      "loss": 0.1574,
+      "step": 63
+    },
+    {
+      "epoch": 1.0810240168910004,
+      "grad_norm": 4.417683124542236,
+      "learning_rate": 0.000155,
+      "loss": 0.1475,
+      "step": 64
+    },
+    {
+      "epoch": 1.0979150171549221,
+      "grad_norm": 1.9370671510696411,
+      "learning_rate": 0.00015356053955890993,
+      "loss": 0.1239,
+      "step": 65
+    },
+    {
+      "epoch": 1.114806017418844,
+      "grad_norm": 4.699803829193115,
+      "learning_rate": 0.00015210637670680472,
+      "loss": 0.357,
+      "step": 66
+    },
+    {
+      "epoch": 1.1316970176827659,
+      "grad_norm": 4.869682788848877,
+      "learning_rate": 0.00015063800224798007,
+      "loss": 0.3851,
+      "step": 67
+    },
+    {
+      "epoch": 1.1485880179466879,
+      "grad_norm": 3.7498834133148193,
+      "learning_rate": 0.0001491559117833866,
+      "loss": 0.334,
+      "step": 68
+    },
+    {
+      "epoch": 1.1654790182106096,
+      "grad_norm": 4.540921211242676,
+      "learning_rate": 0.0001476606055433565,
+      "loss": 0.3964,
+      "step": 69
+    },
+    {
+      "epoch": 1.1823700184745316,
+      "grad_norm": 4.821572303771973,
+      "learning_rate": 0.00014615258821876727,
+      "loss": 0.3421,
+      "step": 70
+    },
+    {
+      "epoch": 1.1992610187384534,
+      "grad_norm": 6.549943923950195,
+      "learning_rate": 0.00014463236879070013,
+      "loss": 0.4211,
+      "step": 71
+    },
+    {
+      "epoch": 1.2161520190023754,
+      "grad_norm": 5.620640277862549,
+      "learning_rate": 0.0001431004603586504,
+      "loss": 0.4023,
+      "step": 72
+    },
+    {
+      "epoch": 1.2330430192662971,
+      "grad_norm": 6.463934421539307,
+      "learning_rate": 0.0001415573799673479,
+      "loss": 0.4277,
+      "step": 73
+    },
+    {
+      "epoch": 1.249934019530219,
+      "grad_norm": 3.2470703125,
+      "learning_rate": 0.00014000364843224562,
+      "loss": 0.3017,
+      "step": 74
+    },
+    {
+      "epoch": 1.2668250197941409,
+      "grad_norm": 3.9443600177764893,
+      "learning_rate": 0.00013843979016373573,
+      "loss": 0.3262,
+      "step": 75
+    },
+    {
+      "epoch": 1.2668250197941409,
+      "eval_loss": 0.19759434461593628,
+      "eval_runtime": 0.6939,
+      "eval_samples_per_second": 72.058,
+      "eval_steps_per_second": 18.735,
+      "step": 75
+    },
+    {
+      "epoch": 1.2837160200580628,
+      "grad_norm": 4.828883647918701,
+      "learning_rate": 0.00013686633299015251,
+      "loss": 0.3834,
+      "step": 76
+    },
+    {
+      "epoch": 1.3006070203219848,
+      "grad_norm": 5.459804534912109,
+      "learning_rate": 0.00013528380797962126,
+      "loss": 0.3427,
+      "step": 77
+    },
+    {
+      "epoch": 1.3174980205859066,
+      "grad_norm": 4.264815330505371,
+      "learning_rate": 0.00013369274926081394,
+      "loss": 0.2111,
+      "step": 78
+    },
+    {
+      "epoch": 1.3343890208498284,
+      "grad_norm": 3.133007526397705,
+      "learning_rate": 0.00013209369384267194,
+      "loss": 0.177,
+      "step": 79
+    },
+    {
+      "epoch": 1.3512800211137503,
+      "grad_norm": 2.766847848892212,
+      "learning_rate": 0.00013048718143315643,
+      "loss": 0.1618,
+      "step": 80
+    },
+    {
+      "epoch": 1.3681710213776723,
+      "grad_norm": 3.8833649158477783,
+      "learning_rate": 0.00012887375425708794,
+      "loss": 0.2155,
+      "step": 81
+    },
+    {
+      "epoch": 1.385062021641594,
+      "grad_norm": 3.8597495555877686,
+      "learning_rate": 0.00012725395687313647,
+      "loss": 0.1842,
+      "step": 82
+    },
+    {
+      "epoch": 1.4019530219055159,
+      "grad_norm": 6.810535907745361,
+      "learning_rate": 0.00012562833599002375,
+      "loss": 0.2377,
+      "step": 83
+    },
+    {
+      "epoch": 1.4188440221694378,
+      "grad_norm": 12.93388843536377,
+      "learning_rate": 0.0001239974402819999,
+      "loss": 0.2895,
+      "step": 84
+    },
+    {
+      "epoch": 1.4357350224333598,
+      "grad_norm": 3.9634480476379395,
+      "learning_rate": 0.00012236182020365673,
+      "loss": 0.2547,
+      "step": 85
+    },
+    {
+      "epoch": 1.4526260226972816,
+      "grad_norm": 4.790787220001221,
+      "learning_rate": 0.00012072202780414012,
+      "loss": 0.2652,
+      "step": 86
+    },
+    {
+      "epoch": 1.4695170229612033,
+      "grad_norm": 3.763577699661255,
+      "learning_rate": 0.00011907861654082417,
+      "loss": 0.1602,
+      "step": 87
+    },
+    {
+      "epoch": 1.4864080232251253,
+      "grad_norm": 3.399597644805908,
+      "learning_rate": 0.00011743214109250993,
+      "loss": 0.1438,
+      "step": 88
+    },
+    {
+      "epoch": 1.5032990234890473,
+      "grad_norm": 2.587632417678833,
+      "learning_rate": 0.00011578315717221234,
+      "loss": 0.1121,
+      "step": 89
+    },
+    {
+      "epoch": 1.520190023752969,
+      "grad_norm": 1.242765188217163,
+      "learning_rate": 0.00011413222133959747,
+      "loss": 0.0997,
+      "step": 90
+    },
+    {
+      "epoch": 1.5370810240168908,
+      "grad_norm": 3.1180193424224854,
+      "learning_rate": 0.0001124798908131346,
+      "loss": 0.2238,
+      "step": 91
+    },
+    {
+      "epoch": 1.5539720242808128,
+      "grad_norm": 3.6643130779266357,
+      "learning_rate": 0.00011082672328202539,
+      "loss": 0.312,
+      "step": 92
+    },
+    {
+      "epoch": 1.5708630245447348,
+      "grad_norm": 3.1813502311706543,
+      "learning_rate": 0.00010917327671797463,
+      "loss": 0.31,
+      "step": 93
+    },
+    {
+      "epoch": 1.5877540248086568,
+      "grad_norm": 2.9217069149017334,
+      "learning_rate": 0.00010752010918686544,
+      "loss": 0.2821,
+      "step": 94
+    },
+    {
+      "epoch": 1.6046450250725786,
+      "grad_norm": 3.552128314971924,
+      "learning_rate": 0.00010586777866040254,
+      "loss": 0.2903,
+      "step": 95
+    },
+    {
+      "epoch": 1.6215360253365003,
+      "grad_norm": 5.272158622741699,
+      "learning_rate": 0.0001042168428277877,
+      "loss": 0.3607,
+      "step": 96
+    },
+    {
+      "epoch": 1.6384270256004223,
+      "grad_norm": 3.992403507232666,
+      "learning_rate": 0.0001025678589074901,
+      "loss": 0.2743,
+      "step": 97
+    },
+    {
+      "epoch": 1.6553180258643443,
+      "grad_norm": 3.073756217956543,
+      "learning_rate": 0.00010092138345917588,
+      "loss": 0.2355,
+      "step": 98
+    },
+    {
+      "epoch": 1.672209026128266,
+      "grad_norm": 2.897674083709717,
+      "learning_rate": 9.927797219585989e-05,
+      "loss": 0.206,
+      "step": 99
+    },
+    {
+      "epoch": 1.6891000263921878,
+      "grad_norm": 3.1351470947265625,
+      "learning_rate": 9.763817979634326e-05,
+      "loss": 0.1611,
+      "step": 100
+    },
+    {
+      "epoch": 1.6891000263921878,
+      "eval_loss": 0.12606343626976013,
+      "eval_runtime": 0.6938,
+      "eval_samples_per_second": 72.064,
+      "eval_steps_per_second": 18.737,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.296162210414592e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null