huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +417 -443
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2tmmbk4q/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1n3sf0z7) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1n3sf0z7/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/15cym4b5/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1x3uqmm0) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1x3uqmm0/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~6822583675384521~~, "eval_runtime": 27.~~1385~~, "eval_samples_per_second": 22.~~256~~, "eval_steps_per_second": 2.8, "epoch": 3.0}


1	+ {"eval_loss": 0.8025060296058655, "eval_runtime": 8.4071, "eval_samples_per_second": 76.84, "eval_steps_per_second": 9.635, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcf0afe6139148f265c80e26d4bfc5c7039a20828882f87c6b3037890711e56e
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:b739a8ccddc25542afe5ea2119ebba6e65e6112338dbb78979b77f70e8686623
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a65d3443a82bf2e41da97ef8f633284eadd651caa7a18815b9196f1e2b0847c
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e7cb42f5dffe82bcd3b920ad61f5f93a9acc9fbfabe99f82bbe40dad162fef9
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef17b9c3a0ca44ea4230c596d212eb41870f4f94818e18bf2e56aa4e30f46ce8
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:67e98567401881145d820a525614414d2e99e92a4565ac3f62537226f10421a5
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdee0035455f96487346df6e0d66b94b0a0cd4bb48870d0dd9b34bd67dca7c62
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:db724fec037fee48b46d10275cfadd56b2c386d7a8e13404c7083dc7b9d1713f
+size 14439

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b294a94dc01fb76be071ae8b385cb1227c60af155ff6121e65edf420f2ffa8f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:cac36feda9756e3d13d61874960f11354da701987062c5c64b16b3e4d3148948
 size 623

trainer_state.json CHANGED Viewed

@@ -1,1144 +1,1118 @@
 {
-  "best_metric": 0.6822583675384521,
-  "best_model_checkpoint": "output/eminem/checkpoint-920",
   "epoch": 2.0,
-  "global_step": 920,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.00013618053464655743,
-      "loss": 1.1972,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0001365469584575468,
-      "loss": 1.0976,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.00013683240859409016,
-      "loss": 1.0008,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.00013703654487986559,
-      "loss": 1.1789,
       "step": 20
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 0.00013715912404180336,
-      "loss": 1.1345,
       "step": 25
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0001372,
-      "loss": 1.1009,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00013715912404180342,
-      "loss": 1.0427,
       "step": 35
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.00013703654487986564,
-      "loss": 1.078,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0001368324085940902,
-      "loss": 1.1279,
       "step": 45
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.0001365469584575469,
-      "loss": 1.3308,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0001361805346465575,
-      "loss": 1.3708,
       "step": 55
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.00013573357383530257,
-      "loss": 1.1679,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.00013520660867542708,
-      "loss": 1.1438,
       "step": 65
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.000134600267161271,
-      "loss": 1.2393,
       "step": 70
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00013391527188147482,
-      "loss": 1.3522,
       "step": 75
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0001331524391578593,
-      "loss": 1.2583,
       "step": 80
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.00013231267807259546,
-      "loss": 1.2512,
       "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00013139698938484037,
-      "loss": 1.1431,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.00013040646433810598,
-      "loss": 1.2775,
       "step": 95
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.0001293422833598104,
-      "loss": 1.2136,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0001282057146545354,
-      "loss": 1.1051,
       "step": 105
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00012699811269268664,
-      "loss": 1.1814,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.00012572091659634216,
-      "loss": 1.1777,
       "step": 115
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.00012437564842422737,
-      "loss": 1.2222,
       "step": 120
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.0001229639113578445,
-      "loss": 1.1447,
       "step": 125
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.00012148738779093613,
-      "loss": 1.2241,
       "step": 130
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00011994783732453708,
-      "loss": 1.3034,
       "step": 135
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.00011834709467003608,
-      "loss": 1.1023,
       "step": 140
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0001166870674627019,
-      "loss": 1.2467,
       "step": 145
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.0001149697339883305,
-      "loss": 1.4339,
       "step": 150
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00011319714082567578,
-      "loss": 1.3216,
       "step": 155
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.00011137140040750936,
-      "loss": 1.2588,
       "step": 160
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.00010949468850318863,
-      "loss": 1.1163,
       "step": 165
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.00010756924162575738,
-      "loss": 1.2174,
       "step": 170
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.00010559735436664466,
-      "loss": 1.1407,
       "step": 175
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.00010358137666116407,
-      "loss": 1.2427,
       "step": 180
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.00010152371098804076,
-      "loss": 1.2078,
       "step": 185
     },
     {
       "epoch": 0.42,
-      "learning_rate": 9.942680950634789e-05,
-      "loss": 1.1613,
       "step": 190
     },
     {
       "epoch": 0.43,
-      "learning_rate": 9.729317113320387e-05,
-      "loss": 1.2122,
       "step": 195
     },
     {
       "epoch": 0.44,
-      "learning_rate": 9.51253385657818e-05,
-      "loss": 1.2021,
       "step": 200
     },
     {
       "epoch": 0.45,
-      "learning_rate": 9.292589525111788e-05,
-      "loss": 1.1738,
       "step": 205
     },
     {
       "epoch": 0.46,
-      "learning_rate": 9.069746230737676e-05,
-      "loss": 1.4022,
       "step": 210
     },
     {
       "epoch": 0.47,
-      "learning_rate": 8.844269540020829e-05,
-      "loss": 1.068,
       "step": 215
     },
     {
       "epoch": 0.48,
-      "learning_rate": 8.616428157794787e-05,
-      "loss": 1.227,
       "step": 220
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 8.386493606940273e-05,
-      "loss": 1.3073,
       "step": 225
     },
     {
       "epoch": 0.51,
-      "learning_rate": 8.1547399048071e-05,
-      "loss": 1.3174,
       "step": 230
     },
     {
       "epoch": 0.52,
-      "learning_rate": 7.921443236661364e-05,
-      "loss": 1.2401,
       "step": 235
     },
     {
       "epoch": 0.53,
-      "learning_rate": 7.68688162655159e-05,
-      "loss": 1.0838,
       "step": 240
     },
     {
       "epoch": 0.54,
-      "learning_rate": 7.451334605981065e-05,
-      "loss": 1.2547,
       "step": 245
     },
     {
       "epoch": 0.55,
-      "learning_rate": 7.215082880785731e-05,
-      "loss": 1.168,
       "step": 250
     },
     {
       "epoch": 0.56,
-      "learning_rate": 6.978407996610963e-05,
-      "loss": 1.1954,
       "step": 255
     },
     {
       "epoch": 0.57,
-      "learning_rate": 6.741592003389071e-05,
-      "loss": 1.1562,
       "step": 260
     },
     {
       "epoch": 0.58,
-      "learning_rate": 6.504917119214301e-05,
-      "loss": 1.129,
       "step": 265
     },
     {
       "epoch": 0.59,
-      "learning_rate": 6.268665394019066e-05,
-      "loss": 1.1188,
       "step": 270
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 6.0331183734484437e-05,
-      "loss": 1.2232,
       "step": 275
     },
     {
       "epoch": 0.62,
-      "learning_rate": 5.7985567633387656e-05,
-      "loss": 1.1544,
       "step": 280
     },
     {
       "epoch": 0.63,
-      "learning_rate": 5.56526009519303e-05,
-      "loss": 1.169,
       "step": 285
     },
     {
       "epoch": 0.64,
-      "learning_rate": 5.333506393059759e-05,
-      "loss": 1.1042,
       "step": 290
     },
     {
       "epoch": 0.65,
-      "learning_rate": 5.1035718422052454e-05,
-      "loss": 1.2713,
       "step": 295
     },
     {
       "epoch": 0.66,
-      "learning_rate": 4.8757304599792025e-05,
-      "loss": 1.0417,
       "step": 300
     },
     {
       "epoch": 0.67,
-      "learning_rate": 4.6502537692623556e-05,
-      "loss": 1.3032,
       "step": 305
     },
     {
       "epoch": 0.68,
-      "learning_rate": 4.4274104748882436e-05,
-      "loss": 1.1426,
       "step": 310
     },
     {
       "epoch": 0.69,
-      "learning_rate": 4.20746614342185e-05,
-      "loss": 1.132,
       "step": 315
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.9906828866797315e-05,
-      "loss": 1.0621,
       "step": 320
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 3.7773190493652406e-05,
-      "loss": 1.2695,
       "step": 325
     },
     {
       "epoch": 0.73,
-      "learning_rate": 3.567628901195954e-05,
-      "loss": 1.2674,
       "step": 330
     },
     {
       "epoch": 0.74,
-      "learning_rate": 3.3618623338837045e-05,
-      "loss": 1.2634,
       "step": 335
     },
     {
       "epoch": 0.75,
-      "learning_rate": 3.160264563335562e-05,
-      "loss": 1.3034,
       "step": 340
     },
     {
       "epoch": 0.76,
-      "learning_rate": 2.963075837424291e-05,
-      "loss": 1.1978,
       "step": 345
     },
     {
       "epoch": 0.77,
-      "learning_rate": 2.770531149681164e-05,
-      "loss": 1.147,
       "step": 350
     },
     {
       "epoch": 0.78,
-      "learning_rate": 2.5828599592490913e-05,
-      "loss": 1.1312,
       "step": 355
     },
     {
       "epoch": 0.79,
-      "learning_rate": 2.400285917432448e-05,
-      "loss": 1.0567,
       "step": 360
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.223026601166975e-05,
-      "loss": 1.223,
       "step": 365
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.0512932537299025e-05,
-      "loss": 1.0728,
       "step": 370
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 1.885290532996415e-05,
-      "loss": 1.0335,
       "step": 375
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.7252162675463158e-05,
-      "loss": 1.1881,
       "step": 380
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.5712612209064698e-05,
-      "loss": 1.2686,
       "step": 385
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.423608864215572e-05,
-      "loss": 1.1489,
       "step": 390
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.282435157577283e-05,
-      "loss": 1.1948,
       "step": 395
     },
     {
       "epoch": 0.88,
-      "learning_rate": 1.147908340365801e-05,
-      "loss": 1.0644,
       "step": 400
     },
     {
       "epoch": 0.89,
-      "learning_rate": 1.020188730731355e-05,
-      "loss": 1.3175,
       "step": 405
     },
     {
       "epoch": 0.9,
-      "learning_rate": 8.99428534546479e-06,
-      "loss": 1.2393,
       "step": 410
     },
     {
       "epoch": 0.91,
-      "learning_rate": 7.857716640189754e-06,
-      "loss": 1.2108,
       "step": 415
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 6.793535661894595e-06,
-      "loss": 1.0917,
       "step": 420
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 5.80301061515975e-06,
-      "loss": 1.2168,
       "step": 425
     },
     {
       "epoch": 0.95,
-      "learning_rate": 4.8873219274046634e-06,
-      "loss": 0.9956,
       "step": 430
     },
     {
       "epoch": 0.96,
-      "learning_rate": 4.047560842141143e-06,
-      "loss": 1.2478,
       "step": 435
     },
     {
       "epoch": 0.97,
-      "learning_rate": 3.2847281185252856e-06,
-      "loss": 1.2265,
       "step": 440
     },
     {
       "epoch": 0.98,
-      "learning_rate": 2.5997328387290914e-06,
-      "loss": 1.1521,
       "step": 445
     },
     {
       "epoch": 0.99,
-      "learning_rate": 1.9933913245729997e-06,
-      "loss": 1.1974,
       "step": 450
     },
     {
       "epoch": 1.0,
-      "learning_rate": 1.4664261646974962e-06,
-      "loss": 1.166,
-      "step": 455
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.8371484875679016,
-      "eval_runtime": 28.6472,
-      "eval_samples_per_second": 22.341,
-      "eval_steps_per_second": 2.793,
       "step": 455
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 3.313560072903732e-06,
-      "loss": 0.9642,
       "step": 460
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 4.083020186586042e-06,
-      "loss": 1.0926,
       "step": 465
     },
     {
       "epoch": 1.04,
-      "learning_rate": 4.930046740852481e-06,
-      "loss": 1.1107,
       "step": 470
     },
     {
       "epoch": 1.05,
-      "learning_rate": 5.85362138619196e-06,
-      "loss": 1.0343,
       "step": 475
     },
     {
       "epoch": 1.06,
-      "learning_rate": 6.852633742079277e-06,
-      "loss": 1.0895,
       "step": 480
     },
     {
       "epoch": 1.07,
-      "learning_rate": 7.925882731949876e-06,
-      "loss": 1.0942,
       "step": 485
     },
     {
       "epoch": 1.08,
-      "learning_rate": 9.072078027207483e-06,
-      "loss": 1.0349,
       "step": 490
     },
     {
       "epoch": 1.09,
-      "learning_rate": 1.0289841598539205e-05,
-      "loss": 1.1153,
       "step": 495
     },
     {
       "epoch": 1.1,
-      "learning_rate": 1.1577709372675019e-05,
-      "loss": 1.1266,
       "step": 500
     },
     {
       "epoch": 1.11,
-      "learning_rate": 1.2934132992586013e-05,
-      "loss": 1.0478,
       "step": 505
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 1.4357481679018476e-05,
-      "loss": 1.0834,
       "step": 510
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 1.5846044191123214e-05,
-      "loss": 0.9411,
       "step": 515
     },
     {
       "epoch": 1.15,
-      "learning_rate": 1.739803088381975e-05,
-      "loss": 1.1014,
       "step": 520
     },
     {
       "epoch": 1.16,
-      "learning_rate": 1.9011575859416407e-05,
-      "loss": 1.0989,
       "step": 525
     },
     {
       "epoch": 1.17,
-      "learning_rate": 2.0684739210917447e-05,
-      "loss": 0.9124,
       "step": 530
     },
     {
       "epoch": 1.18,
-      "learning_rate": 2.2415509354303698e-05,
-      "loss": 1.0756,
       "step": 535
     },
     {
       "epoch": 1.19,
-      "learning_rate": 2.4201805446981234e-05,
-      "loss": 1.0015,
       "step": 540
     },
     {
       "epoch": 1.2,
-      "learning_rate": 2.604147988950966e-05,
-      "loss": 1.2663,
       "step": 545
     },
     {
       "epoch": 1.21,
-      "learning_rate": 2.793232090758389e-05,
-      "loss": 1.1183,
       "step": 550
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 2.9872055211163767e-05,
-      "loss": 1.2909,
       "step": 555
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 3.185835072757725e-05,
-      "loss": 1.1669,
       "step": 560
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 3.388881940527942e-05,
-      "loss": 1.062,
       "step": 565
     },
     {
       "epoch": 1.26,
-      "learning_rate": 3.596102008492985e-05,
-      "loss": 1.1253,
       "step": 570
     },
     {
       "epoch": 1.27,
-      "learning_rate": 3.807246143430314e-05,
-      "loss": 1.1079,
       "step": 575
     },
     {
       "epoch": 1.28,
-      "learning_rate": 4.02206049435268e-05,
-      "loss": 1.2146,
       "step": 580
     },
     {
       "epoch": 1.29,
-      "learning_rate": 4.2402867977052555e-05,
-      "loss": 1.0767,
       "step": 585
     },
     {
       "epoch": 1.3,
-      "learning_rate": 4.461662687864929e-05,
-      "loss": 1.0771,
       "step": 590
     },
     {
       "epoch": 1.31,
-      "learning_rate": 4.685922012574009e-05,
-      "loss": 1.1997,
       "step": 595
     },
     {
       "epoch": 1.32,
-      "learning_rate": 4.912795152925409e-05,
-      "loss": 1.107,
       "step": 600
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 5.14200934751585e-05,
-      "loss": 1.1217,
       "step": 605
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 5.373289020376694e-05,
-      "loss": 1.0955,
       "step": 610
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 5.606356112288902e-05,
-      "loss": 1.1355,
       "step": 615
     },
     {
       "epoch": 1.37,
-      "learning_rate": 5.840930415084469e-05,
-      "loss": 1.2501,
       "step": 620
     },
     {
       "epoch": 1.38,
-      "learning_rate": 6.0767299085297635e-05,
-      "loss": 1.0553,
       "step": 625
     },
     {
       "epoch": 1.39,
-      "learning_rate": 6.313471099388376e-05,
-      "loss": 1.0718,
       "step": 630
     },
     {
       "epoch": 1.4,
-      "learning_rate": 6.550869362255213e-05,
-      "loss": 1.2052,
       "step": 635
     },
     {
       "epoch": 1.41,
-      "learning_rate": 6.788639281751474e-05,
-      "loss": 0.9941,
       "step": 640
     },
     {
       "epoch": 1.42,
-      "learning_rate": 7.026494995668396e-05,
-      "loss": 1.0171,
       "step": 645
     },
     {
       "epoch": 1.43,
-      "learning_rate": 7.264150538649964e-05,
-      "loss": 1.0264,
       "step": 650
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 7.501320185998764e-05,
-      "loss": 0.9926,
       "step": 655
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 7.737718797191607e-05,
-      "loss": 1.0749,
       "step": 660
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 7.97306215869479e-05,
-      "loss": 1.0997,
       "step": 665
     },
     {
       "epoch": 1.48,
-      "learning_rate": 8.207067325662808e-05,
-      "loss": 1.1054,
       "step": 670
     },
     {
       "epoch": 1.49,
-      "learning_rate": 8.439452962113818e-05,
-      "loss": 1.2298,
       "step": 675
     },
     {
       "epoch": 1.5,
-      "learning_rate": 8.669939679168881e-05,
-      "loss": 1.0679,
       "step": 680
     },
     {
       "epoch": 1.51,
-      "learning_rate": 8.898250370951158e-05,
-      "loss": 0.93,
       "step": 685
     },
     {
       "epoch": 1.52,
-      "learning_rate": 9.124110547741169e-05,
-      "loss": 1.0726,
       "step": 690
     },
     {
       "epoch": 1.53,
-      "learning_rate": 9.347248665985043e-05,
-      "loss": 1.038,
       "step": 695
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 9.567396454761656e-05,
-      "loss": 1.219,
       "step": 700
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 9.78428923831546e-05,
-      "loss": 1.1036,
       "step": 705
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 9.997666254266687e-05,
-      "loss": 1.2553,
       "step": 710
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 0.0001020727096711577,
-      "loss": 0.9944,
       "step": 715
     },
     {
       "epoch": 1.59,
-      "learning_rate": 0.00010412851376667537,
-      "loss": 1.0103,
       "step": 720
     },
     {
       "epoch": 1.6,
-      "learning_rate": 0.00010614160321001933,
-      "loss": 1.1856,
       "step": 725
     },
     {
       "epoch": 1.61,
-      "learning_rate": 0.00010810955773627152,
-      "loss": 1.1214,
       "step": 730
     },
     {
       "epoch": 1.62,
-      "learning_rate": 0.00011003001134460133,
-      "loss": 1.226,
       "step": 735
     },
     {
       "epoch": 1.63,
-      "learning_rate": 0.00011190065514282273,
-      "loss": 1.1587,
       "step": 740
     },
     {
       "epoch": 1.64,
-      "learning_rate": 0.00011371924012328539,
-      "loss": 1.3559,
       "step": 745
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 0.00011548357986678387,
-      "loss": 1.0196,
       "step": 750
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 0.00011719155317120334,
-      "loss": 1.0605,
       "step": 755
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 0.00011884110660177233,
-      "loss": 1.3014,
       "step": 760
     },
     {
       "epoch": 1.69,
-      "learning_rate": 0.0001204302569598269,
-      "loss": 1.104,
       "step": 765
     },
     {
       "epoch": 1.7,
-      "learning_rate": 0.00012195709366713928,
-      "loss": 1.1758,
       "step": 770
     },
     {
       "epoch": 1.71,
-      "learning_rate": 0.00012341978106294302,
-      "loss": 1.1321,
       "step": 775
     },
     {
       "epoch": 1.72,
-      "learning_rate": 0.00012481656061087584,
-      "loss": 1.0998,
       "step": 780
     },
     {
       "epoch": 1.73,
-      "learning_rate": 0.00012614575301320556,
-      "loss": 1.2422,
       "step": 785
     },
     {
       "epoch": 1.74,
-      "learning_rate": 0.00012740576022979148,
-      "loss": 1.0643,
       "step": 790
     },
     {
       "epoch": 1.75,
-      "learning_rate": 0.00012859506739935084,
-      "loss": 1.224,
       "step": 795
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 0.0001297122446607173,
-      "loss": 1.2715,
       "step": 800
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 0.00013075594887191635,
-      "loss": 1.2678,
       "step": 805
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 0.00013172492522497582,
-      "loss": 1.3525,
       "step": 810
     },
     {
       "epoch": 1.8,
-      "learning_rate": 0.00013261800875453292,
-      "loss": 1.1699,
       "step": 815
     },
     {
       "epoch": 1.81,
-      "learning_rate": 0.0001334341257384344,
-      "loss": 1.2546,
       "step": 820
     },
     {
       "epoch": 1.82,
-      "learning_rate": 0.00013417229498863045,
-      "loss": 1.1295,
       "step": 825
     },
     {
       "epoch": 1.83,
-      "learning_rate": 0.00013483162903082528,
-      "loss": 1.0542,
       "step": 830
     },
     {
       "epoch": 1.84,
-      "learning_rate": 0.00013541133517145263,
-      "loss": 1.1614,
       "step": 835
     },
     {
       "epoch": 1.85,
-      "learning_rate": 0.000135910716450703,
-      "loss": 1.2422,
       "step": 840
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 0.00013632917248045546,
-      "loss": 1.3636,
       "step": 845
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 0.00013666620016610032,
-      "loss": 1.1613,
       "step": 850
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 0.00013692139431139235,
-      "loss": 1.1166,
       "step": 855
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 0.00013709444810560428,
-      "loss": 1.3142,
       "step": 860
     },
     {
       "epoch": 1.91,
-      "learning_rate": 0.00013718515349239374,
-      "loss": 1.2432,
       "step": 865
     },
     {
       "epoch": 1.92,
-      "learning_rate": 0.0001371934014199418,
-      "loss": 1.2136,
       "step": 870
     },
     {
       "epoch": 1.93,
-      "learning_rate": 0.00013711918197206236,
-      "loss": 1.244,
       "step": 875
     },
     {
       "epoch": 1.94,
-      "learning_rate": 0.00013696258438012369,
-      "loss": 1.197,
       "step": 880
     },
     {
       "epoch": 1.95,
-      "learning_rate": 0.0001367237969157692,
-      "loss": 1.2077,
       "step": 885
     },
     {
       "epoch": 1.96,
-      "learning_rate": 0.0001364031066645648,
-      "loss": 1.219,
       "step": 890
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 0.00013600089918084689,
-      "loss": 1.1498,
       "step": 895
     },
-    {
-      "epoch": 1.99,
-      "learning_rate": 0.00013551765802418306,
-      "loss": 1.3182,
-      "step": 900
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.00013495396417800696,
-      "loss": 1.2463,
-      "step": 905
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.7939189076423645,
-      "eval_runtime": 29.7555,
-      "eval_samples_per_second": 22.08,
-      "eval_steps_per_second": 2.789,
-      "step": 906
-    },
     {
       "epoch": 1.98,
-      "learning_rate": 7.7941032128002e-05,
-      "loss": 1.1586,
-      "step": 910
     },
     {
       "epoch": 1.99,
-      "learning_rate": 8.025585241296564e-05,
-      "loss": 1.0424,
-      "step": 915
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 8.255708249541132e-05,
-      "loss": 0.9012,
-      "step": 920
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.6822583675384521,
-      "eval_runtime": 26.4465,
-      "eval_samples_per_second": 22.839,
-      "eval_steps_per_second": 2.874,
-      "step": 920
     }
   ],
-  "max_steps": 1380,
   "num_train_epochs": 3,
-  "total_flos": 959725633536000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8025060296058655,
+  "best_model_checkpoint": "output/eminem/checkpoint-908",
   "epoch": 2.0,
+  "global_step": 908,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 1.3299239388716378e-07,
+      "loss": 0.9607,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 3.216610996650382e-07,
+      "loss": 0.966,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 5.920572031213835e-07,
+      "loss": 0.9796,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 9.43857047145701e-07,
+      "loss": 0.8739,
       "step": 20
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 1.3766395364652307e-06,
+      "loss": 1.0099,
       "step": 25
     },
     {
       "epoch": 0.07,
+      "learning_rate": 1.88988664168433e-06,
+      "loss": 0.9153,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 2.482984019353729e-06,
+      "loss": 1.0177,
       "step": 35
     },
     {
       "epoch": 0.09,
+      "learning_rate": 3.1552217473210573e-06,
+      "loss": 0.9735,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 3.905795174492246e-06,
+      "loss": 0.8828,
       "step": 45
     },
     {
       "epoch": 0.11,
+      "learning_rate": 4.733805883976127e-06,
+      "loss": 1.0567,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 5.638262768466535e-06,
+      "loss": 0.9174,
       "step": 55
     },
     {
       "epoch": 0.13,
+      "learning_rate": 6.618083216572472e-06,
+      "loss": 0.8727,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 7.6720944086741e-06,
+      "loss": 0.9884,
       "step": 65
     },
     {
       "epoch": 0.15,
+      "learning_rate": 8.799034720759847e-06,
+      "loss": 0.9629,
       "step": 70
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.997555234555936e-06,
+      "loss": 0.927,
       "step": 75
     },
     {
       "epoch": 0.18,
+      "learning_rate": 1.1266221352147439e-05,
+      "loss": 0.9882,
       "step": 80
     },
     {
       "epoch": 0.19,
+      "learning_rate": 1.260351451315264e-05,
+      "loss": 1.1071,
       "step": 85
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.4007834012403411e-05,
+      "loss": 0.9968,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 1.5477498915945732e-05,
+      "loss": 0.8446,
       "step": 95
     },
     {
       "epoch": 0.22,
+      "learning_rate": 1.7010750073074396e-05,
+      "loss": 1.1172,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 1.8605752221991424e-05,
+      "loss": 1.0285,
       "step": 105
     },
     {
       "epoch": 0.24,
+      "learning_rate": 2.026059618656475e-05,
+      "loss": 1.1558,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 2.19733011615644e-05,
+      "loss": 1.0706,
       "step": 115
     },
     {
       "epoch": 0.26,
+      "learning_rate": 2.3741817083633492e-05,
+      "loss": 0.9304,
       "step": 120
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 2.5564027085162985e-05,
+      "loss": 1.0108,
       "step": 125
     },
     {
       "epoch": 0.29,
+      "learning_rate": 2.7437750028125123e-05,
+      "loss": 1.022,
       "step": 130
     },
     {
       "epoch": 0.3,
+      "learning_rate": 2.9360743114840418e-05,
+      "loss": 0.9518,
       "step": 135
     },
     {
       "epoch": 0.31,
+      "learning_rate": 3.133070457254507e-05,
+      "loss": 0.9963,
       "step": 140
     },
     {
       "epoch": 0.32,
+      "learning_rate": 3.334527640855787e-05,
+      "loss": 0.9435,
       "step": 145
     },
     {
       "epoch": 0.33,
+      "learning_rate": 3.5402047232733056e-05,
+      "loss": 0.955,
       "step": 150
     },
     {
       "epoch": 0.34,
+      "learning_rate": 3.749855514383242e-05,
+      "loss": 0.9793,
       "step": 155
     },
     {
       "epoch": 0.35,
+      "learning_rate": 3.963229067635804e-05,
+      "loss": 0.9688,
       "step": 160
     },
     {
       "epoch": 0.36,
+      "learning_rate": 4.180069980431374e-05,
+      "loss": 0.9478,
       "step": 165
     },
     {
       "epoch": 0.37,
+      "learning_rate": 4.400118699831312e-05,
+      "loss": 0.9073,
       "step": 170
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 4.62311183323573e-05,
+      "loss": 0.8938,
       "step": 175
     },
     {
       "epoch": 0.4,
+      "learning_rate": 4.848782463657674e-05,
+      "loss": 1.0837,
       "step": 180
     },
     {
       "epoch": 0.41,
+      "learning_rate": 5.076860469215926e-05,
+      "loss": 0.964,
       "step": 185
     },
     {
       "epoch": 0.42,
+      "learning_rate": 5.307072846463586e-05,
+      "loss": 0.9684,
       "step": 190
     },
     {
       "epoch": 0.43,
+      "learning_rate": 5.539144037166391e-05,
+      "loss": 0.9341,
       "step": 195
     },
     {
       "epoch": 0.44,
+      "learning_rate": 5.772796258138569e-05,
+      "loss": 0.8384,
       "step": 200
     },
     {
       "epoch": 0.45,
+      "learning_rate": 6.007749833742388e-05,
+      "loss": 0.8859,
       "step": 205
     },
     {
       "epoch": 0.46,
+      "learning_rate": 6.243723530652334e-05,
+      "loss": 0.9459,
       "step": 210
     },
     {
       "epoch": 0.47,
+      "learning_rate": 6.480434894484296e-05,
+      "loss": 0.9548,
       "step": 215
     },
     {
       "epoch": 0.48,
+      "learning_rate": 6.717600587885728e-05,
+      "loss": 0.9153,
       "step": 220
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 6.954936729683686e-05,
+      "loss": 0.9542,
       "step": 225
     },
     {
       "epoch": 0.51,
+      "learning_rate": 7.192159234682828e-05,
+      "loss": 0.9709,
       "step": 230
     },
     {
       "epoch": 0.52,
+      "learning_rate": 7.428984153708106e-05,
+      "loss": 0.9535,
       "step": 235
     },
     {
       "epoch": 0.53,
+      "learning_rate": 7.665128013484648e-05,
+      "loss": 0.9314,
       "step": 240
     },
     {
       "epoch": 0.54,
+      "learning_rate": 7.900308155947524e-05,
+      "loss": 0.9481,
       "step": 245
     },
     {
       "epoch": 0.55,
+      "learning_rate": 8.134243076576675e-05,
+      "loss": 1.0072,
       "step": 250
     },
     {
       "epoch": 0.56,
+      "learning_rate": 8.366652761350124e-05,
+      "loss": 0.9006,
       "step": 255
     },
     {
       "epoch": 0.57,
+      "learning_rate": 8.597259021913684e-05,
+      "loss": 1.1408,
       "step": 260
     },
     {
       "epoch": 0.58,
+      "learning_rate": 8.825785828564903e-05,
+      "loss": 0.8856,
       "step": 265
     },
     {
       "epoch": 0.59,
+      "learning_rate": 9.051959640653727e-05,
+      "loss": 0.8189,
       "step": 270
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 9.275509734003362e-05,
+      "loss": 0.9642,
       "step": 275
     },
     {
       "epoch": 0.62,
+      "learning_rate": 9.496168524960374e-05,
+      "loss": 0.9964,
       "step": 280
     },
     {
       "epoch": 0.63,
+      "learning_rate": 9.713671890685066e-05,
+      "loss": 1.0822,
       "step": 285
     },
     {
       "epoch": 0.64,
+      "learning_rate": 9.927759485299768e-05,
+      "loss": 1.0476,
       "step": 290
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.00010138175051516164,
+      "loss": 1.182,
       "step": 295
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.0001034466672736827,
+      "loss": 1.0057,
       "step": 300
     },
     {
       "epoch": 0.67,
+      "learning_rate": 0.00010546987347685174,
+      "loss": 0.9401,
       "step": 305
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00010744894739940985,
+      "loss": 1.1325,
       "step": 310
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.0001093815201412914,
+      "loss": 1.0879,
       "step": 315
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.00011126527846313655,
+      "loss": 1.048,
       "step": 320
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.0001130979675551757,
+      "loss": 0.9551,
       "step": 325
     },
     {
       "epoch": 0.73,
+      "learning_rate": 0.00011487739373618278,
+      "loss": 0.9586,
       "step": 330
     },
     {
       "epoch": 0.74,
+      "learning_rate": 0.00011660142707925162,
+      "loss": 0.9103,
       "step": 335
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00011826800396126513,
+      "loss": 1.0702,
       "step": 340
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.0001198751295329933,
+      "loss": 0.9897,
       "step": 345
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.00012142088010688453,
+      "loss": 0.9608,
       "step": 350
     },
     {
       "epoch": 0.78,
+      "learning_rate": 0.00012290340545966183,
+      "loss": 1.1265,
       "step": 355
     },
     {
       "epoch": 0.79,
+      "learning_rate": 0.00012432093104699707,
+      "loss": 1.0023,
       "step": 360
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.00012567176012759186,
+      "loss": 1.0231,
       "step": 365
     },
     {
       "epoch": 0.81,
+      "learning_rate": 0.0001269542757941335,
+      "loss": 1.1342,
       "step": 370
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 0.00012816694290869156,
+      "loss": 1.0269,
       "step": 375
     },
     {
       "epoch": 0.84,
+      "learning_rate": 0.00012930830994023604,
+      "loss": 1.1784,
       "step": 380
     },
     {
       "epoch": 0.85,
+      "learning_rate": 0.0001303770107020853,
+      "loss": 1.1591,
       "step": 385
     },
     {
       "epoch": 0.86,
+      "learning_rate": 0.00013137176598719403,
+      "loss": 1.0692,
       "step": 390
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.00013229138509933172,
+      "loss": 0.9776,
       "step": 395
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.00013313476727831364,
+      "loss": 1.1472,
       "step": 400
     },
     {
       "epoch": 0.89,
+      "learning_rate": 0.0001339009030175844,
+      "loss": 1.1092,
       "step": 405
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.00013458887527256958,
+      "loss": 1.0475,
       "step": 410
     },
     {
       "epoch": 0.91,
+      "learning_rate": 0.00013519786055835514,
+      "loss": 1.0603,
       "step": 415
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 0.0001357271299353754,
+      "loss": 1.0979,
       "step": 420
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 0.00013617604988193791,
+      "loss": 1.1643,
       "step": 425
     },
     {
       "epoch": 0.95,
+      "learning_rate": 0.00013654408305253046,
+      "loss": 1.1787,
       "step": 430
     },
     {
       "epoch": 0.96,
+      "learning_rate": 0.00013683078892100969,
+      "loss": 1.0679,
       "step": 435
     },
     {
       "epoch": 0.97,
+      "learning_rate": 0.00013703582430790026,
+      "loss": 1.1034,
       "step": 440
     },
     {
       "epoch": 0.98,
+      "learning_rate": 0.00013715894379117124,
+      "loss": 1.2196,
       "step": 445
     },
     {
       "epoch": 0.99,
+      "learning_rate": 0.0001372,
+      "loss": 1.1973,
       "step": 450
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.8132181763648987,
+      "eval_runtime": 8.3954,
+      "eval_samples_per_second": 76.947,
+      "eval_steps_per_second": 9.648,
+      "step": 454
     },
     {
       "epoch": 1.0,
+      "learning_rate": 0.00013715894379117126,
+      "loss": 1.097,
       "step": 455
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.0001370358243079003,
+      "loss": 1.0361,
       "step": 460
     },
     {
+      "epoch": 1.02,
+      "learning_rate": 0.00013683078892100974,
+      "loss": 1.0419,
       "step": 465
     },
     {
       "epoch": 1.04,
+      "learning_rate": 0.00013654408305253056,
+      "loss": 0.9943,
       "step": 470
     },
     {
       "epoch": 1.05,
+      "learning_rate": 0.00013617604988193802,
+      "loss": 0.8492,
       "step": 475
     },
     {
       "epoch": 1.06,
+      "learning_rate": 0.0001357271299353755,
+      "loss": 0.8659,
       "step": 480
     },
     {
       "epoch": 1.07,
+      "learning_rate": 0.00013519786055835527,
+      "loss": 1.0681,
       "step": 485
     },
     {
       "epoch": 1.08,
+      "learning_rate": 0.00013458887527256977,
+      "loss": 0.8057,
       "step": 490
     },
     {
       "epoch": 1.09,
+      "learning_rate": 0.0001339009030175846,
+      "loss": 0.8735,
       "step": 495
     },
     {
       "epoch": 1.1,
+      "learning_rate": 0.00013313476727831386,
+      "loss": 1.0159,
       "step": 500
     },
     {
       "epoch": 1.11,
+      "learning_rate": 0.00013229138509933196,
+      "loss": 1.0634,
       "step": 505
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 0.0001313717659871943,
+      "loss": 1.1331,
       "step": 510
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.00013037701070208558,
+      "loss": 1.0009,
       "step": 515
     },
     {
       "epoch": 1.15,
+      "learning_rate": 0.00012930830994023633,
+      "loss": 0.9342,
       "step": 520
     },
     {
       "epoch": 1.16,
+      "learning_rate": 0.0001281669429086919,
+      "loss": 0.9788,
       "step": 525
     },
     {
       "epoch": 1.17,
+      "learning_rate": 0.00012695427579413385,
+      "loss": 0.9793,
       "step": 530
     },
     {
       "epoch": 1.18,
+      "learning_rate": 0.0001256717601275922,
+      "loss": 1.0848,
       "step": 535
     },
     {
       "epoch": 1.19,
+      "learning_rate": 0.00012432093104699745,
+      "loss": 0.9297,
       "step": 540
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00012290340545966224,
+      "loss": 1.1117,
       "step": 545
     },
     {
       "epoch": 1.21,
+      "learning_rate": 0.00012142088010688494,
+      "loss": 1.1474,
       "step": 550
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00011987512953299372,
+      "loss": 0.9244,
       "step": 555
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 0.00011826800396126557,
+      "loss": 1.1159,
       "step": 560
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 0.00011660142707925208,
+      "loss": 1.0104,
       "step": 565
     },
     {
       "epoch": 1.26,
+      "learning_rate": 0.00011487739373618326,
+      "loss": 1.0571,
       "step": 570
     },
     {
       "epoch": 1.27,
+      "learning_rate": 0.00011309796755517619,
+      "loss": 1.1123,
       "step": 575
     },
     {
       "epoch": 1.28,
+      "learning_rate": 0.00011126527846313704,
+      "loss": 0.8683,
       "step": 580
     },
     {
       "epoch": 1.29,
+      "learning_rate": 0.00010938152014129192,
+      "loss": 0.9522,
       "step": 585
     },
     {
       "epoch": 1.3,
+      "learning_rate": 0.00010744894739941038,
+      "loss": 0.9323,
       "step": 590
     },
     {
       "epoch": 1.31,
+      "learning_rate": 0.00010546987347685228,
+      "loss": 0.8976,
       "step": 595
     },
     {
       "epoch": 1.32,
+      "learning_rate": 0.00010344666727368325,
+      "loss": 0.8812,
       "step": 600
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 0.00010138175051516221,
+      "loss": 0.9468,
       "step": 605
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 9.927759485299826e-05,
+      "loss": 0.9565,
       "step": 610
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 9.713671890685124e-05,
+      "loss": 1.0534,
       "step": 615
     },
     {
       "epoch": 1.37,
+      "learning_rate": 9.496168524960432e-05,
+      "loss": 1.1313,
       "step": 620
     },
     {
       "epoch": 1.38,
+      "learning_rate": 9.275509734003423e-05,
+      "loss": 1.1094,
       "step": 625
     },
     {
       "epoch": 1.39,
+      "learning_rate": 9.051959640653786e-05,
+      "loss": 1.0261,
       "step": 630
     },
     {
       "epoch": 1.4,
+      "learning_rate": 8.825785828564964e-05,
+      "loss": 1.0947,
       "step": 635
     },
     {
       "epoch": 1.41,
+      "learning_rate": 8.597259021913746e-05,
+      "loss": 1.014,
       "step": 640
     },
     {
       "epoch": 1.42,
+      "learning_rate": 8.366652761350186e-05,
+      "loss": 0.9513,
       "step": 645
     },
     {
       "epoch": 1.43,
+      "learning_rate": 8.134243076576737e-05,
+      "loss": 1.0445,
       "step": 650
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 7.900308155947589e-05,
+      "loss": 0.9315,
       "step": 655
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 7.665128013484713e-05,
+      "loss": 1.0082,
       "step": 660
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 7.42898415370817e-05,
+      "loss": 1.0051,
       "step": 665
     },
     {
       "epoch": 1.48,
+      "learning_rate": 7.192159234682893e-05,
+      "loss": 1.0477,
       "step": 670
     },
     {
       "epoch": 1.49,
+      "learning_rate": 6.95493672968375e-05,
+      "loss": 1.0178,
       "step": 675
     },
     {
       "epoch": 1.5,
+      "learning_rate": 6.717600587885793e-05,
+      "loss": 0.9478,
       "step": 680
     },
     {
       "epoch": 1.51,
+      "learning_rate": 6.48043489448436e-05,
+      "loss": 1.0712,
       "step": 685
     },
     {
       "epoch": 1.52,
+      "learning_rate": 6.243723530652398e-05,
+      "loss": 1.0546,
       "step": 690
     },
     {
       "epoch": 1.53,
+      "learning_rate": 6.0077498337424516e-05,
+      "loss": 0.9993,
       "step": 695
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 5.772796258138633e-05,
+      "loss": 1.0692,
       "step": 700
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 5.5391440371664534e-05,
+      "loss": 0.784,
       "step": 705
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 5.307072846463648e-05,
+      "loss": 1.0026,
       "step": 710
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 5.0768604692159876e-05,
+      "loss": 1.0188,
       "step": 715
     },
     {
       "epoch": 1.59,
+      "learning_rate": 4.848782463657735e-05,
+      "loss": 1.1097,
       "step": 720
     },
     {
       "epoch": 1.6,
+      "learning_rate": 4.623111833235789e-05,
+      "loss": 0.8797,
       "step": 725
     },
     {
       "epoch": 1.61,
+      "learning_rate": 4.400118699831371e-05,
+      "loss": 0.9968,
       "step": 730
     },
     {
       "epoch": 1.62,
+      "learning_rate": 4.180069980431433e-05,
+      "loss": 0.9446,
       "step": 735
     },
     {
       "epoch": 1.63,
+      "learning_rate": 3.9632290676358616e-05,
+      "loss": 0.9644,
       "step": 740
     },
     {
       "epoch": 1.64,
+      "learning_rate": 3.749855514383298e-05,
+      "loss": 0.9931,
       "step": 745
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 3.540204723273361e-05,
+      "loss": 0.846,
       "step": 750
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 3.3345276408558416e-05,
+      "loss": 0.8853,
       "step": 755
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 3.1330704572545604e-05,
+      "loss": 1.0022,
       "step": 760
     },
     {
       "epoch": 1.69,
+      "learning_rate": 2.9360743114840946e-05,
+      "loss": 0.9714,
       "step": 765
     },
     {
       "epoch": 1.7,
+      "learning_rate": 2.743775002812563e-05,
+      "loss": 0.9134,
       "step": 770
     },
     {
       "epoch": 1.71,
+      "learning_rate": 2.556402708516349e-05,
+      "loss": 1.0328,
       "step": 775
     },
     {
       "epoch": 1.72,
+      "learning_rate": 2.374181708363397e-05,
+      "loss": 0.9452,
       "step": 780
     },
     {
       "epoch": 1.73,
+      "learning_rate": 2.197330116156487e-05,
+      "loss": 0.9128,
       "step": 785
     },
     {
       "epoch": 1.74,
+      "learning_rate": 2.0260596186565206e-05,
+      "loss": 0.8532,
       "step": 790
     },
     {
       "epoch": 1.75,
+      "learning_rate": 1.8605752221991858e-05,
+      "loss": 1.0068,
       "step": 795
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 1.7010750073074816e-05,
+      "loss": 0.954,
       "step": 800
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 1.5477498915946135e-05,
+      "loss": 0.955,
       "step": 805
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 1.40078340124038e-05,
+      "loss": 0.8937,
       "step": 810
     },
     {
       "epoch": 1.8,
+      "learning_rate": 1.2603514513153006e-05,
+      "loss": 0.8846,
       "step": 815
     },
     {
       "epoch": 1.81,
+      "learning_rate": 1.126622135214779e-05,
+      "loss": 0.9227,
       "step": 820
     },
     {
       "epoch": 1.82,
+      "learning_rate": 9.997555234556263e-06,
+      "loss": 0.9755,
       "step": 825
     },
     {
       "epoch": 1.83,
+      "learning_rate": 8.799034720760158e-06,
+      "loss": 1.0972,
       "step": 830
     },
     {
       "epoch": 1.84,
+      "learning_rate": 7.672094408674397e-06,
+      "loss": 1.0254,
       "step": 835
     },
     {
       "epoch": 1.85,
+      "learning_rate": 6.618083216572745e-06,
+      "loss": 0.9993,
       "step": 840
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 5.638262768466794e-06,
+      "loss": 0.9833,
       "step": 845
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 4.733805883976356e-06,
+      "loss": 0.9683,
       "step": 850
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 3.905795174492459e-06,
+      "loss": 1.0143,
       "step": 855
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 3.155221747321248e-06,
+      "loss": 1.0293,
       "step": 860
     },
     {
       "epoch": 1.91,
+      "learning_rate": 2.482984019353904e-06,
+      "loss": 0.9645,
       "step": 865
     },
     {
       "epoch": 1.92,
+      "learning_rate": 1.8898866416844749e-06,
+      "loss": 0.9395,
       "step": 870
     },
     {
       "epoch": 1.93,
+      "learning_rate": 1.37663953646536e-06,
+      "loss": 1.0553,
       "step": 875
     },
     {
       "epoch": 1.94,
+      "learning_rate": 9.438570471458076e-07,
+      "loss": 1.0763,
       "step": 880
     },
     {
       "epoch": 1.95,
+      "learning_rate": 5.920572031214673e-07,
+      "loss": 0.987,
       "step": 885
     },
     {
       "epoch": 1.96,
+      "learning_rate": 3.216610996650991e-07,
+      "loss": 1.0021,
       "step": 890
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 1.3299239388720947e-07,
+      "loss": 0.8033,
       "step": 895
     },
     {
       "epoch": 1.98,
+      "learning_rate": 2.6276917326665837e-08,
+      "loss": 1.0829,
+      "step": 900
     },
     {
       "epoch": 1.99,
+      "learning_rate": 1.6424056362936757e-09,
+      "loss": 0.9621,
+      "step": 905
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.8025060296058655,
+      "eval_runtime": 8.3951,
+      "eval_samples_per_second": 76.95,
+      "eval_steps_per_second": 9.649,
+      "step": 908
     }
   ],
+  "max_steps": 1362,
   "num_train_epochs": 3,
+  "total_flos": 948751368192000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af133d06cf9107eff32426f3a7587a6180a61f69752eaf4fc23152d22d231624
 size 2863

 version https://git-lfs.github.com/spec/v1
+oid sha256:af3d16db63fcd2a5987c663780ce8fd33dc7a85804a193836b0800c52e0bcc3a
 size 2863