nielsbantilan commited on Aug 8, 2023

Commit

087b4f2

1 Parent(s): 5048497

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

checkpoint-400/global_step400/zero_pp_rank_0_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_1_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_2_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_3_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_4_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_4_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_5_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_5_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_6_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_6_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_7_mp_rank_00_model_states.pt +1 -1
checkpoint-400/global_step400/zero_pp_rank_7_mp_rank_00_optim_states.pt +1 -1
checkpoint-400/pytorch_model.bin +1 -1
checkpoint-400/trainer_state.json +35 -35
checkpoint-400/training_args.bin +1 -1
flyte_training_config.json +1 -1
pytorch_model.bin +1 -1
trainer_state.json +54 -954
training_args.bin +1 -1

checkpoint-400/global_step400/zero_pp_rank_0_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef0c10789bcb3eda527750b2f1fc97a2ad5ed9cd117ea557ea5876e3b4b44b50
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:c93ee5b8cb3c9fe770a734c41a9651c2bd2146d06ed01d86f475bc092d763245
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c9ba6d05015fe5405a9da936ed3e2f5ff9f7661e6429ecaf2e460a28390e0f
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f2e2c33433b4a7873e0a2c58a13adc74837e4636a63cf083630a22f825bc948
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_1_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fde5b7d09fef56b9d25a86dcfc89fc47c3d11782b9142ae1375e0b2f6da98cf2
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:04a2f965bbffccbc96869f8a21e9abf77a2d94b05cbd52053a6b13fefb1b242f
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d06a601056b5affbe24fa4a0a318918685d84c434bc0801a6118b8cc7cb8b868
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:16061aa0e674e18de87177bd697b06479c1b6217aa62f20756f0d17550a6b9d1
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_2_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2015eb61ead1392e69766d89a0db16792e13811733af10d425ece514b3be05c
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ed6c8f793581ff40564f7448fd7cdd4c3e97f5cfb8ff6c4c8c1836eaa505532
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be6cba9a80a6b026a6e338c39e5b992d1866119a6048cb6e6948586ef4f9bcab
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:1777ef89643d77b7d7615d7c5cd6bf22cec543a918d0d2181691167c3b2bf662
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_3_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c72cb5735a2083a90cecb19bac5d9560f458ccacb59b050bef801b7f9eba8c19
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c52a2b7e7f349e660aa5f856d7fe448a97e68beb4de6c46968e37bc63d5fd37
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:979be6fa6ba16d52e471436be61d798561b86e39a66b245978498d3735530f42
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa2a50627546e6e379f5d592681a31a65f8c1f703301f03074ac3837ba7c78c8
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_4_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb749e1d8758b3454505a3c583bd27630b93b41c714987a246c17e86b6e3cf9f
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ad2756edd42edb4c1db8e438125921f09897cd655083806fb1c358e230b5eaa
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_4_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89973fee08655591a7ed78b4e0fd8dc5fe0c107b072262f490a446e7393b5a16
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3579d9a26f8311633f02b253340b832e0335042ef8cc4ab9bb6de6540f5941e
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_5_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9db75fcb1f612036494b3ad7f3f9893f60ba84ac4f0921ad84194c9af37492c6
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a32922ba3284e5a1bb06e98224a3bc3bb52e072386ea0c2ad3331a6fb19c1bc
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_5_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4631100a870e917734cf6d6120894642f41aef69bbf857a49363712a8419df7b
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:b200e1c68d22e4ff09e8def614520ed4cd3ee318392d9795e98b10fb4b1642c8
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_6_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6166a921ec43052d4a68a1c89f6eac86c97f6992a468d880a1746e02389a32b
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:c101d52f6ff8cb5cc6220900dc099fc438ab5ace5de24773ee1b4039c222e025
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_6_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be2f16ff9afc318399b12b0373e1a435fb2f62cd9640ecb8b22068e0e32d6c9b
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:9480e0823bd09697f3944726f296063f9236576ab9f5765d93b20c62cf1bfb2f
 size 4163799934

checkpoint-400/global_step400/zero_pp_rank_7_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae86cf4d7adb3ca6934324b24c2cd1f3b078c6e9d1c245147b7587e81a2e9b79
 size 134451731

 version https://git-lfs.github.com/spec/v1
+oid sha256:d739b4b9f8c2f56af45739f78a55b08b87619d78ba896d57002909378c95222b
 size 134451731

checkpoint-400/global_step400/zero_pp_rank_7_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:debed0eca41e789b85121bc469404216f166208725234b6af79b78cf885c58d9
 size 4163799934

 version https://git-lfs.github.com/spec/v1
+oid sha256:3441f14607a54bc3f5eff1b191fe2864d101588934f8f9c17fa4b45feec9a210
 size 4163799934

checkpoint-400/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12d7ad2052b524441df7eb0291f23bd6f573dd8161c99830c26ce2a38a2f113b
 size 5686106713

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6ac41172c7bd6abf75e8e0e73e4f8dbe3202ec6c399179c73462afcffdd1671
 size 5686106713

checkpoint-400/trainer_state.json CHANGED Viewed

@@ -10,43 +10,43 @@
     {
       "epoch": 6.67,
       "learning_rate": 1.5357481488588927e-05,
-      "loss": 1.9677,
       "step": 10
     },
     {
       "epoch": 13.33,
       "learning_rate": 2e-05,
-      "loss": 1.0371,
       "step": 20
     },
     {
       "epoch": 20.0,
       "learning_rate": 2e-05,
-      "loss": 0.2217,
       "step": 30
     },
     {
       "epoch": 26.67,
       "learning_rate": 2e-05,
-      "loss": 0.0689,
       "step": 40
     },
     {
       "epoch": 33.33,
       "learning_rate": 2e-05,
-      "loss": 0.0456,
       "step": 50
     },
     {
       "epoch": 40.0,
       "learning_rate": 2e-05,
-      "loss": 0.0316,
       "step": 60
     },
     {
       "epoch": 46.67,
       "learning_rate": 2e-05,
-      "loss": 0.0248,
       "step": 70
     },
     {
@@ -58,91 +58,91 @@
     {
       "epoch": 60.0,
       "learning_rate": 2e-05,
-      "loss": 0.0144,
       "step": 90
     },
     {
       "epoch": 66.67,
       "learning_rate": 2e-05,
-      "loss": 0.0113,
       "step": 100
     },
     {
       "epoch": 73.33,
       "learning_rate": 2e-05,
-      "loss": 0.0098,
       "step": 110
     },
     {
       "epoch": 80.0,
       "learning_rate": 2e-05,
-      "loss": 0.009,
       "step": 120
     },
     {
       "epoch": 86.67,
       "learning_rate": 2e-05,
-      "loss": 0.0076,
       "step": 130
     },
     {
       "epoch": 93.33,
       "learning_rate": 2e-05,
-      "loss": 0.0075,
       "step": 140
     },
     {
       "epoch": 100.0,
       "learning_rate": 2e-05,
-      "loss": 0.0065,
       "step": 150
     },
     {
       "epoch": 106.67,
       "learning_rate": 2e-05,
-      "loss": 0.0064,
       "step": 160
     },
     {
       "epoch": 113.33,
       "learning_rate": 2e-05,
-      "loss": 0.0057,
       "step": 170
     },
     {
       "epoch": 120.0,
       "learning_rate": 2e-05,
-      "loss": 0.0054,
       "step": 180
     },
     {
       "epoch": 126.67,
       "learning_rate": 2e-05,
-      "loss": 0.0079,
       "step": 190
     },
     {
       "epoch": 133.33,
       "learning_rate": 2e-05,
-      "loss": 0.0063,
       "step": 200
     },
     {
       "epoch": 140.0,
       "learning_rate": 2e-05,
-      "loss": 0.0058,
       "step": 210
     },
     {
       "epoch": 146.67,
       "learning_rate": 2e-05,
-      "loss": 0.005,
       "step": 220
     },
     {
       "epoch": 153.33,
       "learning_rate": 2e-05,
-      "loss": 0.005,
       "step": 230
     },
     {
@@ -160,19 +160,19 @@
     {
       "epoch": 173.33,
       "learning_rate": 2e-05,
-      "loss": 0.0043,
       "step": 260
     },
     {
       "epoch": 180.0,
       "learning_rate": 2e-05,
-      "loss": 0.0043,
       "step": 270
     },
     {
       "epoch": 186.67,
       "learning_rate": 2e-05,
-      "loss": 0.0042,
       "step": 280
     },
     {
@@ -184,19 +184,19 @@
     {
       "epoch": 200.0,
       "learning_rate": 2e-05,
-      "loss": 0.0042,
       "step": 300
     },
     {
       "epoch": 206.67,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 310
     },
     {
       "epoch": 213.33,
       "learning_rate": 2e-05,
-      "loss": 0.0039,
       "step": 320
     },
     {
@@ -208,43 +208,43 @@
     {
       "epoch": 226.67,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 340
     },
     {
       "epoch": 233.33,
       "learning_rate": 2e-05,
-      "loss": 0.0034,
       "step": 350
     },
     {
       "epoch": 240.0,
       "learning_rate": 2e-05,
-      "loss": 0.0037,
       "step": 360
     },
     {
       "epoch": 246.67,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 370
     },
     {
       "epoch": 253.33,
       "learning_rate": 2e-05,
-      "loss": 0.0037,
       "step": 380
     },
     {
       "epoch": 260.0,
       "learning_rate": 2e-05,
-      "loss": 0.0037,
       "step": 390
     },
     {
       "epoch": 266.67,
       "learning_rate": 2e-05,
-      "loss": 0.0036,
       "step": 400
     }
   ],

     {
       "epoch": 6.67,
       "learning_rate": 1.5357481488588927e-05,
+      "loss": 1.9783,
       "step": 10
     },
     {
       "epoch": 13.33,
       "learning_rate": 2e-05,
+      "loss": 1.0744,
       "step": 20
     },
     {
       "epoch": 20.0,
       "learning_rate": 2e-05,
+      "loss": 0.2335,
       "step": 30
     },
     {
       "epoch": 26.67,
       "learning_rate": 2e-05,
+      "loss": 0.0723,
       "step": 40
     },
     {
       "epoch": 33.33,
       "learning_rate": 2e-05,
+      "loss": 0.046,
       "step": 50
     },
     {
       "epoch": 40.0,
       "learning_rate": 2e-05,
+      "loss": 0.0321,
       "step": 60
     },
     {
       "epoch": 46.67,
       "learning_rate": 2e-05,
+      "loss": 0.0261,
       "step": 70
     },
     {
     {
       "epoch": 60.0,
       "learning_rate": 2e-05,
+      "loss": 0.0158,
       "step": 90
     },
     {
       "epoch": 66.67,
       "learning_rate": 2e-05,
+      "loss": 0.0124,
       "step": 100
     },
     {
       "epoch": 73.33,
       "learning_rate": 2e-05,
+      "loss": 0.0106,
       "step": 110
     },
     {
       "epoch": 80.0,
       "learning_rate": 2e-05,
+      "loss": 0.0091,
       "step": 120
     },
     {
       "epoch": 86.67,
       "learning_rate": 2e-05,
+      "loss": 0.0083,
       "step": 130
     },
     {
       "epoch": 93.33,
       "learning_rate": 2e-05,
+      "loss": 0.0071,
       "step": 140
     },
     {
       "epoch": 100.0,
       "learning_rate": 2e-05,
+      "loss": 0.007,
       "step": 150
     },
     {
       "epoch": 106.67,
       "learning_rate": 2e-05,
+      "loss": 0.0063,
       "step": 160
     },
     {
       "epoch": 113.33,
       "learning_rate": 2e-05,
+      "loss": 0.0061,
       "step": 170
     },
     {
       "epoch": 120.0,
       "learning_rate": 2e-05,
+      "loss": 0.0059,
       "step": 180
     },
     {
       "epoch": 126.67,
       "learning_rate": 2e-05,
+      "loss": 0.0054,
       "step": 190
     },
     {
       "epoch": 133.33,
       "learning_rate": 2e-05,
+      "loss": 0.0052,
       "step": 200
     },
     {
       "epoch": 140.0,
       "learning_rate": 2e-05,
+      "loss": 0.0049,
       "step": 210
     },
     {
       "epoch": 146.67,
       "learning_rate": 2e-05,
+      "loss": 0.0048,
       "step": 220
     },
     {
       "epoch": 153.33,
       "learning_rate": 2e-05,
+      "loss": 0.0045,
       "step": 230
     },
     {
     {
       "epoch": 173.33,
       "learning_rate": 2e-05,
+      "loss": 0.0046,
       "step": 260
     },
     {
       "epoch": 180.0,
       "learning_rate": 2e-05,
+      "loss": 0.0042,
       "step": 270
     },
     {
       "epoch": 186.67,
       "learning_rate": 2e-05,
+      "loss": 0.0043,
       "step": 280
     },
     {
     {
       "epoch": 200.0,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 300
     },
     {
       "epoch": 206.67,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 310
     },
     {
       "epoch": 213.33,
       "learning_rate": 2e-05,
+      "loss": 0.0043,
       "step": 320
     },
     {
     {
       "epoch": 226.67,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 340
     },
     {
       "epoch": 233.33,
       "learning_rate": 2e-05,
+      "loss": 0.004,
       "step": 350
     },
     {
       "epoch": 240.0,
       "learning_rate": 2e-05,
+      "loss": 0.004,
       "step": 360
     },
     {
       "epoch": 246.67,
       "learning_rate": 2e-05,
+      "loss": 0.0042,
       "step": 370
     },
     {
       "epoch": 253.33,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 380
     },
     {
       "epoch": 260.0,
       "learning_rate": 2e-05,
+      "loss": 0.0038,
       "step": 390
     },
     {
       "epoch": 266.67,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 400
     }
   ],

checkpoint-400/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d27383b338ae82946f100d10bfcecddd777acad3c5731d207d2c433e024bc936
 size 5563

 version https://git-lfs.github.com/spec/v1
+oid sha256:567801fbca456df7279774860aae6a5f038bd64e03f891b6ae2b93a59c8c417b
 size 5563

flyte_training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"base_model": "togethercomputer/RedPajama-INCITE-Base-3B-v1", "data_path": "wikipedia", "data_name": "20220301.simple", "num_epochs": 1, "max_steps": ~~2001~~, "learning_rate": 2e-05, "weight_decay": 0.02, "warmup_ratio": 0.03, "lr_scheduler_type": "cosine", "batch_size": 16, "micro_batch_size": 1, "val_set_size": 0, "group_by_length": false, "instruction_key": "instruction", "input_key": "input", "output_key": "output", "device_map": "auto", "cache_dir": null, "optim": "adamw_torch", "model_max_length": 512, "debug_mode": false, "debug_train_data_size": 1024, "wandb_project": ""}

+ {"base_model": "togethercomputer/RedPajama-INCITE-Base-3B-v1", "data_path": "wikipedia", "data_name": "20220301.simple", "num_epochs": 1, "max_steps": 500, "learning_rate": 2e-05, "weight_decay": 0.02, "warmup_ratio": 0.03, "lr_scheduler_type": "cosine", "batch_size": 16, "micro_batch_size": 1, "val_set_size": 0, "group_by_length": false, "instruction_key": "instruction", "input_key": "input", "output_key": "output", "device_map": "auto", "cache_dir": null, "optim": "adamw_torch", "model_max_length": 512, "debug_mode": false, "debug_train_data_size": 1024, "wandb_project": ""}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ffb1344823c7e872b10d296a16b98a5712cc86b52b776238f0b801f54d28833
 size 5686106713

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f3895af09e0538e006a1966cba065c0ffa5e3f6694c04007a381d31c326bcf4
 size 5686106713

trainer_state.json CHANGED Viewed

@@ -1,94 +1,94 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1334.0,
-  "global_step": 2001,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 6.67,
-      "learning_rate": 9.46713625058711e-06,
-      "loss": 2.0455,
       "step": 10
     },
     {
       "epoch": 13.33,
-      "learning_rate": 1.3783995508828243e-05,
-      "loss": 1.425,
       "step": 20
     },
     {
       "epoch": 20.0,
-      "learning_rate": 1.603472631319529e-05,
-      "loss": 0.5237,
       "step": 30
     },
     {
       "epoch": 26.67,
-      "learning_rate": 1.7567641489142956e-05,
-      "loss": 0.1184,
       "step": 40
     },
     {
       "epoch": 33.33,
-      "learning_rate": 1.8731528764550483e-05,
-      "loss": 0.0585,
       "step": 50
     },
     {
       "epoch": 40.0,
-      "learning_rate": 1.9670033192067303e-05,
-      "loss": 0.0411,
       "step": 60
     },
     {
       "epoch": 46.67,
       "learning_rate": 2e-05,
-      "loss": 0.0321,
       "step": 70
     },
     {
       "epoch": 53.33,
       "learning_rate": 2e-05,
-      "loss": 0.0232,
       "step": 80
     },
     {
       "epoch": 60.0,
       "learning_rate": 2e-05,
-      "loss": 0.0182,
       "step": 90
     },
     {
       "epoch": 66.67,
       "learning_rate": 2e-05,
-      "loss": 0.0137,
       "step": 100
     },
     {
       "epoch": 73.33,
       "learning_rate": 2e-05,
-      "loss": 0.0111,
       "step": 110
     },
     {
       "epoch": 80.0,
       "learning_rate": 2e-05,
-      "loss": 0.0096,
       "step": 120
     },
     {
       "epoch": 86.67,
       "learning_rate": 2e-05,
-      "loss": 0.0085,
       "step": 130
     },
     {
       "epoch": 93.33,
       "learning_rate": 2e-05,
-      "loss": 0.0078,
       "step": 140
     },
     {
@@ -100,7 +100,7 @@
     {
       "epoch": 106.67,
       "learning_rate": 2e-05,
-      "loss": 0.0066,
       "step": 160
     },
     {
@@ -112,7 +112,7 @@
     {
       "epoch": 120.0,
       "learning_rate": 2e-05,
-      "loss": 0.0057,
       "step": 180
     },
     {
@@ -142,13 +142,13 @@
     {
       "epoch": 153.33,
       "learning_rate": 2e-05,
-      "loss": 0.0048,
       "step": 230
     },
     {
       "epoch": 160.0,
       "learning_rate": 2e-05,
-      "loss": 0.0045,
       "step": 240
     },
     {
@@ -160,31 +160,31 @@
     {
       "epoch": 173.33,
       "learning_rate": 2e-05,
-      "loss": 0.0045,
       "step": 260
     },
     {
       "epoch": 180.0,
       "learning_rate": 2e-05,
-      "loss": 0.0041,
       "step": 270
     },
     {
       "epoch": 186.67,
       "learning_rate": 2e-05,
-      "loss": 0.0044,
       "step": 280
     },
     {
       "epoch": 193.33,
       "learning_rate": 2e-05,
-      "loss": 0.0042,
       "step": 290
     },
     {
       "epoch": 200.0,
       "learning_rate": 2e-05,
-      "loss": 0.0042,
       "step": 300
     },
     {
@@ -196,19 +196,19 @@
     {
       "epoch": 213.33,
       "learning_rate": 2e-05,
-      "loss": 0.0041,
       "step": 320
     },
     {
       "epoch": 220.0,
       "learning_rate": 2e-05,
-      "loss": 0.0041,
       "step": 330
     },
     {
       "epoch": 226.67,
       "learning_rate": 2e-05,
-      "loss": 0.004,
       "step": 340
     },
     {
@@ -220,31 +220,31 @@
     {
       "epoch": 240.0,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 360
     },
     {
       "epoch": 246.67,
       "learning_rate": 2e-05,
-      "loss": 0.004,
       "step": 370
     },
     {
       "epoch": 253.33,
       "learning_rate": 2e-05,
-      "loss": 0.004,
       "step": 380
     },
     {
       "epoch": 260.0,
       "learning_rate": 2e-05,
-      "loss": 0.0041,
       "step": 390
     },
     {
       "epoch": 266.67,
       "learning_rate": 2e-05,
-      "loss": 0.0039,
       "step": 400
     },
     {
@@ -268,37 +268,37 @@
     {
       "epoch": 293.33,
       "learning_rate": 2e-05,
-      "loss": 0.004,
       "step": 440
     },
     {
       "epoch": 300.0,
       "learning_rate": 2e-05,
-      "loss": 0.0039,
       "step": 450
     },
     {
       "epoch": 306.67,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 460
     },
     {
       "epoch": 313.33,
       "learning_rate": 2e-05,
-      "loss": 0.0037,
       "step": 470
     },
     {
       "epoch": 320.0,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 480
     },
     {
       "epoch": 326.67,
       "learning_rate": 2e-05,
-      "loss": 0.0038,
       "step": 490
     },
     {
@@ -308,918 +308,18 @@
       "step": 500
     },
     {
-      "epoch": 340.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0038,
-      "step": 510
-    },
-    {
-      "epoch": 346.67,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 520
-    },
-    {
-      "epoch": 353.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 530
-    },
-    {
-      "epoch": 360.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0039,
-      "step": 540
-    },
-    {
-      "epoch": 366.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0045,
-      "step": 550
-    },
-    {
-      "epoch": 373.33,
-      "learning_rate": 2e-05,
-      "loss": 0.005,
-      "step": 560
-    },
-    {
-      "epoch": 380.0,
-      "learning_rate": 2e-05,
-      "loss": 0.014,
-      "step": 570
-    },
-    {
-      "epoch": 386.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0149,
-      "step": 580
-    },
-    {
-      "epoch": 393.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0084,
-      "step": 590
-    },
-    {
-      "epoch": 400.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0072,
-      "step": 600
-    },
-    {
-      "epoch": 406.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0058,
-      "step": 610
-    },
-    {
-      "epoch": 413.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0053,
-      "step": 620
-    },
-    {
-      "epoch": 420.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0051,
-      "step": 630
-    },
-    {
-      "epoch": 426.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0047,
-      "step": 640
-    },
-    {
-      "epoch": 433.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0045,
-      "step": 650
-    },
-    {
-      "epoch": 440.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0043,
-      "step": 660
-    },
-    {
-      "epoch": 446.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0041,
-      "step": 670
-    },
-    {
-      "epoch": 453.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0039,
-      "step": 680
-    },
-    {
-      "epoch": 460.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0038,
-      "step": 690
-    },
-    {
-      "epoch": 466.67,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 700
-    },
-    {
-      "epoch": 473.33,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 710
-    },
-    {
-      "epoch": 480.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0036,
-      "step": 720
-    },
-    {
-      "epoch": 486.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0036,
-      "step": 730
-    },
-    {
-      "epoch": 493.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 740
-    },
-    {
-      "epoch": 500.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0036,
-      "step": 750
-    },
-    {
-      "epoch": 506.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 760
-    },
-    {
-      "epoch": 513.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 770
-    },
-    {
-      "epoch": 520.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 780
-    },
-    {
-      "epoch": 526.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 790
-    },
-    {
-      "epoch": 533.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 800
-    },
-    {
-      "epoch": 540.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 810
-    },
-    {
-      "epoch": 546.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 820
-    },
-    {
-      "epoch": 553.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 830
-    },
-    {
-      "epoch": 560.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 840
-    },
-    {
-      "epoch": 566.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 850
-    },
-    {
-      "epoch": 573.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 860
-    },
-    {
-      "epoch": 580.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 870
-    },
-    {
-      "epoch": 586.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 880
-    },
-    {
-      "epoch": 593.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 890
-    },
-    {
-      "epoch": 600.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 900
-    },
-    {
-      "epoch": 606.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 910
-    },
-    {
-      "epoch": 613.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 920
-    },
-    {
-      "epoch": 620.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 930
-    },
-    {
-      "epoch": 626.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 940
-    },
-    {
-      "epoch": 633.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 950
-    },
-    {
-      "epoch": 640.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 960
-    },
-    {
-      "epoch": 646.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 970
-    },
-    {
-      "epoch": 653.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 980
-    },
-    {
-      "epoch": 660.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 990
-    },
-    {
-      "epoch": 666.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1000
-    },
-    {
-      "epoch": 673.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1010
-    },
-    {
-      "epoch": 680.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1020
-    },
-    {
-      "epoch": 686.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1030
-    },
-    {
-      "epoch": 693.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1040
-    },
-    {
-      "epoch": 700.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1050
-    },
-    {
-      "epoch": 706.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1060
-    },
-    {
-      "epoch": 713.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1070
-    },
-    {
-      "epoch": 720.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1080
-    },
-    {
-      "epoch": 726.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1090
-    },
-    {
-      "epoch": 733.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1100
-    },
-    {
-      "epoch": 740.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1110
-    },
-    {
-      "epoch": 746.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1120
-    },
-    {
-      "epoch": 753.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1130
-    },
-    {
-      "epoch": 760.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1140
-    },
-    {
-      "epoch": 766.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0039,
-      "step": 1150
-    },
-    {
-      "epoch": 773.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0049,
-      "step": 1160
-    },
-    {
-      "epoch": 780.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0049,
-      "step": 1170
-    },
-    {
-      "epoch": 786.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0048,
-      "step": 1180
-    },
-    {
-      "epoch": 793.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0048,
-      "step": 1190
-    },
-    {
-      "epoch": 800.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0046,
-      "step": 1200
-    },
-    {
-      "epoch": 806.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0041,
-      "step": 1210
-    },
-    {
-      "epoch": 813.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0038,
-      "step": 1220
-    },
-    {
-      "epoch": 820.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0043,
-      "step": 1230
-    },
-    {
-      "epoch": 826.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0042,
-      "step": 1240
-    },
-    {
-      "epoch": 833.33,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 1250
-    },
-    {
-      "epoch": 840.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 1260
-    },
-    {
-      "epoch": 846.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0043,
-      "step": 1270
-    },
-    {
-      "epoch": 853.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 1280
-    },
-    {
-      "epoch": 860.0,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 1290
-    },
-    {
-      "epoch": 866.67,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 1300
-    },
-    {
-      "epoch": 873.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0051,
-      "step": 1310
-    },
-    {
-      "epoch": 880.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0127,
-      "step": 1320
-    },
-    {
-      "epoch": 886.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0082,
-      "step": 1330
-    },
-    {
-      "epoch": 893.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0193,
-      "step": 1340
-    },
-    {
-      "epoch": 900.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0072,
-      "step": 1350
-    },
-    {
-      "epoch": 906.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0055,
-      "step": 1360
-    },
-    {
-      "epoch": 913.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0052,
-      "step": 1370
-    },
-    {
-      "epoch": 920.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0045,
-      "step": 1380
-    },
-    {
-      "epoch": 926.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0042,
-      "step": 1390
-    },
-    {
-      "epoch": 933.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0042,
-      "step": 1400
-    },
-    {
-      "epoch": 940.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 1410
-    },
-    {
-      "epoch": 946.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 1420
-    },
-    {
-      "epoch": 953.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0038,
-      "step": 1430
-    },
-    {
-      "epoch": 960.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0036,
-      "step": 1440
-    },
-    {
-      "epoch": 966.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 1450
-    },
-    {
-      "epoch": 973.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1460
-    },
-    {
-      "epoch": 980.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0037,
-      "step": 1470
-    },
-    {
-      "epoch": 986.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1480
-    },
-    {
-      "epoch": 993.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1490
-    },
-    {
-      "epoch": 1000.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1500
-    },
-    {
-      "epoch": 1006.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1510
-    },
-    {
-      "epoch": 1013.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1520
-    },
-    {
-      "epoch": 1020.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1530
-    },
-    {
-      "epoch": 1026.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
-      "step": 1540
-    },
-    {
-      "epoch": 1033.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1550
-    },
-    {
-      "epoch": 1040.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1560
-    },
-    {
-      "epoch": 1046.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1570
-    },
-    {
-      "epoch": 1053.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1580
-    },
-    {
-      "epoch": 1060.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1590
-    },
-    {
-      "epoch": 1066.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1600
-    },
-    {
-      "epoch": 1073.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1610
-    },
-    {
-      "epoch": 1080.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1620
-    },
-    {
-      "epoch": 1086.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1630
-    },
-    {
-      "epoch": 1093.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1640
-    },
-    {
-      "epoch": 1100.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1650
-    },
-    {
-      "epoch": 1106.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1660
-    },
-    {
-      "epoch": 1113.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1670
-    },
-    {
-      "epoch": 1120.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1680
-    },
-    {
-      "epoch": 1126.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1690
-    },
-    {
-      "epoch": 1133.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1700
-    },
-    {
-      "epoch": 1140.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1710
-    },
-    {
-      "epoch": 1146.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1720
-    },
-    {
-      "epoch": 1153.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1730
-    },
-    {
-      "epoch": 1160.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1740
-    },
-    {
-      "epoch": 1166.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1750
-    },
-    {
-      "epoch": 1173.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0033,
-      "step": 1760
-    },
-    {
-      "epoch": 1180.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1770
-    },
-    {
-      "epoch": 1186.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1780
-    },
-    {
-      "epoch": 1193.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1790
-    },
-    {
-      "epoch": 1200.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1800
-    },
-    {
-      "epoch": 1206.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1810
-    },
-    {
-      "epoch": 1213.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0043,
-      "step": 1820
-    },
-    {
-      "epoch": 1220.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1830
-    },
-    {
-      "epoch": 1226.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1840
-    },
-    {
-      "epoch": 1233.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0034,
-      "step": 1850
-    },
-    {
-      "epoch": 1240.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0063,
-      "step": 1860
-    },
-    {
-      "epoch": 1246.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "step": 1870
-    },
-    {
-      "epoch": 1253.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0061,
-      "step": 1880
-    },
-    {
-      "epoch": 1260.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0071,
-      "step": 1890
-    },
-    {
-      "epoch": 1266.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0055,
-      "step": 1900
-    },
-    {
-      "epoch": 1273.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0053,
-      "step": 1910
-    },
-    {
-      "epoch": 1280.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0043,
-      "step": 1920
-    },
-    {
-      "epoch": 1286.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0042,
-      "step": 1930
-    },
-    {
-      "epoch": 1293.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0039,
-      "step": 1940
-    },
-    {
-      "epoch": 1300.0,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 1950
-    },
-    {
-      "epoch": 1306.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0038,
-      "step": 1960
-    },
-    {
-      "epoch": 1313.33,
-      "learning_rate": 2e-05,
-      "loss": 0.004,
-      "step": 1970
-    },
-    {
-      "epoch": 1320.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0038,
-      "step": 1980
-    },
-    {
-      "epoch": 1326.67,
-      "learning_rate": 2e-05,
-      "loss": 0.0036,
-      "step": 1990
-    },
-    {
-      "epoch": 1333.33,
-      "learning_rate": 2e-05,
-      "loss": 0.0036,
-      "step": 2000
-    },
-    {
-      "epoch": 1334.0,
-      "step": 2001,
-      "total_flos": 841939628851200.0,
-      "train_loss": 0.02562973479824564,
-      "train_runtime": 85372.5158,
-      "train_samples_per_second": 3.0,
       "train_steps_per_second": 0.023
     }
   ],
-  "max_steps": 2001,
-  "num_train_epochs": 2001,
-  "total_flos": 841939628851200.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 333.3333333333333,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 6.67,
+      "learning_rate": 1.5357481488588927e-05,
+      "loss": 1.9783,
       "step": 10
     },
     {
       "epoch": 13.33,
+      "learning_rate": 2e-05,
+      "loss": 1.0744,
       "step": 20
     },
     {
       "epoch": 20.0,
+      "learning_rate": 2e-05,
+      "loss": 0.2335,
       "step": 30
     },
     {
       "epoch": 26.67,
+      "learning_rate": 2e-05,
+      "loss": 0.0723,
       "step": 40
     },
     {
       "epoch": 33.33,
+      "learning_rate": 2e-05,
+      "loss": 0.046,
       "step": 50
     },
     {
       "epoch": 40.0,
+      "learning_rate": 2e-05,
+      "loss": 0.0321,
       "step": 60
     },
     {
       "epoch": 46.67,
       "learning_rate": 2e-05,
+      "loss": 0.0261,
       "step": 70
     },
     {
       "epoch": 53.33,
       "learning_rate": 2e-05,
+      "loss": 0.0189,
       "step": 80
     },
     {
       "epoch": 60.0,
       "learning_rate": 2e-05,
+      "loss": 0.0158,
       "step": 90
     },
     {
       "epoch": 66.67,
       "learning_rate": 2e-05,
+      "loss": 0.0124,
       "step": 100
     },
     {
       "epoch": 73.33,
       "learning_rate": 2e-05,
+      "loss": 0.0106,
       "step": 110
     },
     {
       "epoch": 80.0,
       "learning_rate": 2e-05,
+      "loss": 0.0091,
       "step": 120
     },
     {
       "epoch": 86.67,
       "learning_rate": 2e-05,
+      "loss": 0.0083,
       "step": 130
     },
     {
       "epoch": 93.33,
       "learning_rate": 2e-05,
+      "loss": 0.0071,
       "step": 140
     },
     {
     {
       "epoch": 106.67,
       "learning_rate": 2e-05,
+      "loss": 0.0063,
       "step": 160
     },
     {
     {
       "epoch": 120.0,
       "learning_rate": 2e-05,
+      "loss": 0.0059,
       "step": 180
     },
     {
     {
       "epoch": 153.33,
       "learning_rate": 2e-05,
+      "loss": 0.0045,
       "step": 230
     },
     {
       "epoch": 160.0,
       "learning_rate": 2e-05,
+      "loss": 0.0047,
       "step": 240
     },
     {
     {
       "epoch": 173.33,
       "learning_rate": 2e-05,
+      "loss": 0.0046,
       "step": 260
     },
     {
       "epoch": 180.0,
       "learning_rate": 2e-05,
+      "loss": 0.0042,
       "step": 270
     },
     {
       "epoch": 186.67,
       "learning_rate": 2e-05,
+      "loss": 0.0043,
       "step": 280
     },
     {
       "epoch": 193.33,
       "learning_rate": 2e-05,
+      "loss": 0.0043,
       "step": 290
     },
     {
       "epoch": 200.0,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 300
     },
     {
     {
       "epoch": 213.33,
       "learning_rate": 2e-05,
+      "loss": 0.0043,
       "step": 320
     },
     {
       "epoch": 220.0,
       "learning_rate": 2e-05,
+      "loss": 0.004,
       "step": 330
     },
     {
       "epoch": 226.67,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 340
     },
     {
     {
       "epoch": 240.0,
       "learning_rate": 2e-05,
+      "loss": 0.004,
       "step": 360
     },
     {
       "epoch": 246.67,
       "learning_rate": 2e-05,
+      "loss": 0.0042,
       "step": 370
     },
     {
       "epoch": 253.33,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 380
     },
     {
       "epoch": 260.0,
       "learning_rate": 2e-05,
+      "loss": 0.0038,
       "step": 390
     },
     {
       "epoch": 266.67,
       "learning_rate": 2e-05,
+      "loss": 0.0041,
       "step": 400
     },
     {
     {
       "epoch": 293.33,
       "learning_rate": 2e-05,
+      "loss": 0.0037,
       "step": 440
     },
     {
       "epoch": 300.0,
       "learning_rate": 2e-05,
+      "loss": 0.0038,
       "step": 450
     },
     {
       "epoch": 306.67,
       "learning_rate": 2e-05,
+      "loss": 0.0037,
       "step": 460
     },
     {
       "epoch": 313.33,
       "learning_rate": 2e-05,
+      "loss": 0.0039,
       "step": 470
     },
     {
       "epoch": 320.0,
       "learning_rate": 2e-05,
+      "loss": 0.0037,
       "step": 480
     },
     {
       "epoch": 326.67,
       "learning_rate": 2e-05,
+      "loss": 0.0036,
       "step": 490
     },
     {
       "step": 500
     },
     {
+      "epoch": 333.33,
+      "step": 500,
+      "total_flos": 210359990353920.0,
+      "train_loss": 0.07407628475874663,
+      "train_runtime": 21320.65,
+      "train_samples_per_second": 3.002,
       "train_steps_per_second": 0.023
     }
   ],
+  "max_steps": 500,
+  "num_train_epochs": 500,
+  "total_flos": 210359990353920.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6f37d82e0ffda307f018bd024cb5411a96a38d758bc5f0c3bd5e051be3c5dc1
 size 5563

 version https://git-lfs.github.com/spec/v1
+oid sha256:567801fbca456df7279774860aae6a5f038bd64e03f891b6ae2b93a59c8c417b
 size 5563