Training in progress, step 400, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b5ec50a7104fda4ac1b053eb567bb5f9f914a269d9377cb9aa27543c508dc71
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:17224b2b3a91c0e9521d45a24436b841bfe6523957efd7e7cd1dd6c5ebdc3b1b
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4793427131c2566b87d8a91dde8199046e548543ba605414567b32a1eb638e74
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e37a68b13eabe1e8db809461fb70508ce003e5a782bb20d5ded4257e3d6e09b
 size 157104826

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e872bff49deac1c152ce1064c76aadba1ea767edf8badf5b3ad0550efa67cf88
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c902599e1e01ff9dd003b50caf7eaa257324aa8302b2cf854a158eb29295c69
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd51e4a2fa1ed45d423e33cfdb4f66461311ef195a7e260829c1b7ab9c2bf09c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:de2bfb1b87844b729adff3b7b1db70234c5ded5f2c4da917a4abb3fe4d0e1d04
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9067a03792836886ea0f8e4e88f4a3bb57bdb9d4a532845d679e011cf46d1af
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d47fce9310ac087a1e60a1910546a7146b9eb3606950c9f78a8a4262e409e9fc
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbee30d236530da3455941ea1083517e6c7589a0f5586a7fe0002637c7bb89f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3085a74797e29a3dad431860055a9066c135bf30fe41ef3edbddc1e5b4931620
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb1353079ebffc1935b9ccf84a11807834b56e3e2395d00b0b812aabfddd356a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a6bd280b1fbb3316d4d258b95b1a2fe83754ff0ca1384b0f72c1296f3c08afc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9603303869075717e-08,
-  "best_model_checkpoint": "miner_id_24/checkpoint-350",
-  "epoch": 1.1717631069991115,
   "eval_steps": 25,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2577,6 +2577,372 @@
       "eval_samples_per_second": 71.844,
       "eval_steps_per_second": 18.68,
       "step": 350
     }
   ],
   "logging_steps": 1,
@@ -2605,7 +2971,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2036567736451072e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.7484028447256605e-08,
+  "best_model_checkpoint": "miner_id_24/checkpoint-400",
+  "epoch": 1.339030892269092,
   "eval_steps": 25,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 71.844,
       "eval_steps_per_second": 18.68,
       "step": 350
+    },
+    {
+      "epoch": 1.175108462704511,
+      "grad_norm": 6.101056442275876e-06,
+      "learning_rate": 0.0001466262735086344,
+      "loss": 0.0,
+      "step": 351
+    },
+    {
+      "epoch": 1.1784538184099107,
+      "grad_norm": 5.789248461951502e-06,
+      "learning_rate": 0.00014632641266128428,
+      "loss": 0.0,
+      "step": 352
+    },
+    {
+      "epoch": 1.1817991741153102,
+      "grad_norm": 5.922979653405491e-06,
+      "learning_rate": 0.00014602606930290456,
+      "loss": 0.0,
+      "step": 353
+    },
+    {
+      "epoch": 1.1851445298207097,
+      "grad_norm": 5.770634743385017e-06,
+      "learning_rate": 0.0001457252474228511,
+      "loss": 0.0,
+      "step": 354
+    },
+    {
+      "epoch": 1.1884898855261095,
+      "grad_norm": 5.891377441002987e-06,
+      "learning_rate": 0.00014542395101683561,
+      "loss": 0.0,
+      "step": 355
+    },
+    {
+      "epoch": 1.1918352412315092,
+      "grad_norm": 5.779205366707174e-06,
+      "learning_rate": 0.00014512218408687286,
+      "loss": 0.0,
+      "step": 356
+    },
+    {
+      "epoch": 1.1951805969369087,
+      "grad_norm": 6.2929498199082445e-06,
+      "learning_rate": 0.0001448199506412274,
+      "loss": 0.0,
+      "step": 357
+    },
+    {
+      "epoch": 1.1985259526423082,
+      "grad_norm": 5.800653980259085e-06,
+      "learning_rate": 0.00014451725469436037,
+      "loss": 0.0,
+      "step": 358
+    },
+    {
+      "epoch": 1.201871308347708,
+      "grad_norm": 6.026995379215805e-06,
+      "learning_rate": 0.00014421410026687609,
+      "loss": 0.0,
+      "step": 359
+    },
+    {
+      "epoch": 1.2052166640531075,
+      "grad_norm": 6.040312655386515e-06,
+      "learning_rate": 0.00014391049138546872,
+      "loss": 0.0,
+      "step": 360
+    },
+    {
+      "epoch": 1.2085620197585072,
+      "grad_norm": 6.384302650985774e-06,
+      "learning_rate": 0.00014360643208286887,
+      "loss": 0.0,
+      "step": 361
+    },
+    {
+      "epoch": 1.2119073754639067,
+      "grad_norm": 6.054286586731905e-06,
+      "learning_rate": 0.00014330192639778986,
+      "loss": 0.0,
+      "step": 362
+    },
+    {
+      "epoch": 1.2152527311693064,
+      "grad_norm": 5.83691962674493e-06,
+      "learning_rate": 0.00014299697837487414,
+      "loss": 0.0,
+      "step": 363
+    },
+    {
+      "epoch": 1.218598086874706,
+      "grad_norm": 5.789472197648138e-06,
+      "learning_rate": 0.0001426915920646396,
+      "loss": 0.0,
+      "step": 364
+    },
+    {
+      "epoch": 1.2219434425801057,
+      "grad_norm": 6.030274562363047e-06,
+      "learning_rate": 0.0001423857715234258,
+      "loss": 0.0,
+      "step": 365
+    },
+    {
+      "epoch": 1.2252887982855052,
+      "grad_norm": 6.083088010200299e-06,
+      "learning_rate": 0.00014207952081333992,
+      "loss": 0.0,
+      "step": 366
+    },
+    {
+      "epoch": 1.228634153990905,
+      "grad_norm": 5.530882390303304e-06,
+      "learning_rate": 0.00014177284400220306,
+      "loss": 0.0,
+      "step": 367
+    },
+    {
+      "epoch": 1.2319795096963044,
+      "grad_norm": 5.863201749889413e-06,
+      "learning_rate": 0.00014146574516349595,
+      "loss": 0.0,
+      "step": 368
+    },
+    {
+      "epoch": 1.235324865401704,
+      "grad_norm": 6.111798938945867e-06,
+      "learning_rate": 0.000141158228376305,
+      "loss": 0.0,
+      "step": 369
+    },
+    {
+      "epoch": 1.2386702211071037,
+      "grad_norm": 6.045273494237335e-06,
+      "learning_rate": 0.00014085029772526814,
+      "loss": 0.0,
+      "step": 370
+    },
+    {
+      "epoch": 1.2420155768125032,
+      "grad_norm": 6.002165719110053e-06,
+      "learning_rate": 0.0001405419573005205,
+      "loss": 0.0,
+      "step": 371
+    },
+    {
+      "epoch": 1.245360932517903,
+      "grad_norm": 6.039120307832491e-06,
+      "learning_rate": 0.00014023321119764002,
+      "loss": 0.0,
+      "step": 372
+    },
+    {
+      "epoch": 1.2487062882233024,
+      "grad_norm": 6.003551789035555e-06,
+      "learning_rate": 0.0001399240635175932,
+      "loss": 0.0,
+      "step": 373
+    },
+    {
+      "epoch": 1.2520516439287022,
+      "grad_norm": 5.915948804613436e-06,
+      "learning_rate": 0.00013961451836668043,
+      "loss": 0.0,
+      "step": 374
+    },
+    {
+      "epoch": 1.2553969996341017,
+      "grad_norm": 5.859969860466663e-06,
+      "learning_rate": 0.00013930457985648168,
+      "loss": 0.0,
+      "step": 375
+    },
+    {
+      "epoch": 1.2553969996341017,
+      "eval_loss": 1.7748938319073204e-08,
+      "eval_runtime": 0.6961,
+      "eval_samples_per_second": 71.824,
+      "eval_steps_per_second": 18.674,
+      "step": 375
+    },
+    {
+      "epoch": 1.2587423553395014,
+      "grad_norm": 5.691527803719509e-06,
+      "learning_rate": 0.00013899425210380176,
+      "loss": 0.0,
+      "step": 376
+    },
+    {
+      "epoch": 1.262087711044901,
+      "grad_norm": 5.914226676395629e-06,
+      "learning_rate": 0.00013868353923061563,
+      "loss": 0.0,
+      "step": 377
+    },
+    {
+      "epoch": 1.2654330667503007,
+      "grad_norm": 5.989952114759944e-06,
+      "learning_rate": 0.0001383724453640137,
+      "loss": 0.0,
+      "step": 378
+    },
+    {
+      "epoch": 1.2687784224557002,
+      "grad_norm": 5.64041874895338e-06,
+      "learning_rate": 0.00013806097463614692,
+      "loss": 0.0,
+      "step": 379
+    },
+    {
+      "epoch": 1.2721237781610997,
+      "grad_norm": 6.035153546690708e-06,
+      "learning_rate": 0.00013774913118417195,
+      "loss": 0.0,
+      "step": 380
+    },
+    {
+      "epoch": 1.2754691338664994,
+      "grad_norm": 5.875488113815663e-06,
+      "learning_rate": 0.0001374369191501963,
+      "loss": 0.0,
+      "step": 381
+    },
+    {
+      "epoch": 1.2788144895718991,
+      "grad_norm": 6.396473509084899e-06,
+      "learning_rate": 0.00013712434268122324,
+      "loss": 0.0,
+      "step": 382
+    },
+    {
+      "epoch": 1.2821598452772986,
+      "grad_norm": 5.975215117359767e-06,
+      "learning_rate": 0.00013681140592909652,
+      "loss": 0.0,
+      "step": 383
+    },
+    {
+      "epoch": 1.2855052009826982,
+      "grad_norm": 5.922964191995561e-06,
+      "learning_rate": 0.00013649811305044558,
+      "loss": 0.0,
+      "step": 384
+    },
+    {
+      "epoch": 1.288850556688098,
+      "grad_norm": 5.88319653616054e-06,
+      "learning_rate": 0.00013618446820663015,
+      "loss": 0.0,
+      "step": 385
+    },
+    {
+      "epoch": 1.2921959123934974,
+      "grad_norm": 6.589156328118406e-06,
+      "learning_rate": 0.00013587047556368493,
+      "loss": 0.0,
+      "step": 386
+    },
+    {
+      "epoch": 1.2955412680988971,
+      "grad_norm": 5.7994789131043945e-06,
+      "learning_rate": 0.00013555613929226433,
+      "loss": 0.0,
+      "step": 387
+    },
+    {
+      "epoch": 1.2988866238042966,
+      "grad_norm": 5.76379807171179e-06,
+      "learning_rate": 0.00013524146356758704,
+      "loss": 0.0,
+      "step": 388
+    },
+    {
+      "epoch": 1.3022319795096964,
+      "grad_norm": 5.537129709409783e-06,
+      "learning_rate": 0.00013492645256938068,
+      "loss": 0.0,
+      "step": 389
+    },
+    {
+      "epoch": 1.305577335215096,
+      "grad_norm": 5.805138698633527e-06,
+      "learning_rate": 0.00013461111048182608,
+      "loss": 0.0,
+      "step": 390
+    },
+    {
+      "epoch": 1.3089226909204954,
+      "grad_norm": 5.993603735987563e-06,
+      "learning_rate": 0.00013429544149350187,
+      "loss": 0.0,
+      "step": 391
+    },
+    {
+      "epoch": 1.3122680466258951,
+      "grad_norm": 5.531137048819801e-06,
+      "learning_rate": 0.00013397944979732872,
+      "loss": 0.0,
+      "step": 392
+    },
+    {
+      "epoch": 1.3156134023312949,
+      "grad_norm": 5.714673534384929e-06,
+      "learning_rate": 0.00013366313959051383,
+      "loss": 0.0,
+      "step": 393
+    },
+    {
+      "epoch": 1.3189587580366944,
+      "grad_norm": 5.987948497931939e-06,
+      "learning_rate": 0.000133346515074495,
+      "loss": 0.0,
+      "step": 394
+    },
+    {
+      "epoch": 1.322304113742094,
+      "grad_norm": 6.1729906519758515e-06,
+      "learning_rate": 0.00013302958045488493,
+      "loss": 0.0,
+      "step": 395
+    },
+    {
+      "epoch": 1.3256494694474936,
+      "grad_norm": 5.74833165956079e-06,
+      "learning_rate": 0.00013271233994141516,
+      "loss": 0.0,
+      "step": 396
+    },
+    {
+      "epoch": 1.3289948251528931,
+      "grad_norm": 5.835729098180309e-06,
+      "learning_rate": 0.0001323947977478806,
+      "loss": 0.0,
+      "step": 397
+    },
+    {
+      "epoch": 1.3323401808582929,
+      "grad_norm": 5.932717158430023e-06,
+      "learning_rate": 0.00013207695809208295,
+      "loss": 0.0,
+      "step": 398
+    },
+    {
+      "epoch": 1.3356855365636924,
+      "grad_norm": 6.128618224465754e-06,
+      "learning_rate": 0.00013175882519577526,
+      "loss": 0.0,
+      "step": 399
+    },
+    {
+      "epoch": 1.339030892269092,
+      "grad_norm": 5.671974122378742e-06,
+      "learning_rate": 0.00013144040328460545,
+      "loss": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.339030892269092,
+      "eval_loss": 1.7484028447256605e-08,
+      "eval_runtime": 0.6964,
+      "eval_samples_per_second": 71.794,
+      "eval_steps_per_second": 18.666,
+      "step": 400
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.518464884165837e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null