Training in progress, step 400

Browse files

Files changed (11) hide show

config.json +1 -1
last-checkpoint/config.json +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +9 -295
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +2 -2
runs/Jun18_23-02-20_bb321ddc67eb/events.out.tfevents.1687130449.bb321ddc67eb.435.0 +3 -0
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -39,7 +39,7 @@
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.30.1",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 250002

   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.30.2",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 250002

last-checkpoint/config.json CHANGED Viewed

@@ -39,7 +39,7 @@
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.30.1",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 250002

   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.30.2",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 250002

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90ac490256f647949f42695d32b73cba0a101fb95f10d5a619cb5660ba10ff2d
-size 2067085189

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d616098abea3fdeeea247fed78a11358c8181177518c9e2cc80e894db289c6c
+size 2117841669

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47de52e58786b8b98181cbc186cb69933573acd6041e65760d03400d3c901a9f
-size 2242911029

 version https://git-lfs.github.com/spec/v1
+oid sha256:88eafde7549bbcb49017355eaeb21a46d8f90e1af6a6b1611cf95b3efd4e3a31
+size 2268278205

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d784389a18bf7e45927e65e8221eaa92ccc2c44f81f42e83165f180c191f35dc
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fc93f677e3ae1c54a0f660d829958d1fc6a45e644c99a73005a32d0415718d5
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:876e9140cb29ecc9a1f1514854b3ff5776e33c28372ab87b8f728fd017b65ba0
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:bce84bf308f24fcda8499bb3d8796270be528f26412bc83d531ac8dd12f16446
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,312 +1,26 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.881427072402938,
-  "global_step": 8400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "eval_accuracy": 0.6216116513450103,
-      "eval_f1": 0.5350163270245339,
-      "eval_loss": 1.2418967485427856,
-      "eval_runtime": 545.576,
-      "eval_samples_per_second": 248.431,
-      "eval_steps_per_second": 0.971,
       "step": 400
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.994805876180483e-06,
-      "loss": 1.4969,
-      "step": 500
-    },
-    {
-      "epoch": 0.08,
-      "eval_accuracy": 0.741024657291682,
-      "eval_f1": 0.7346338559187492,
-      "eval_loss": 1.0078158378601074,
-      "eval_runtime": 547.2541,
-      "eval_samples_per_second": 247.669,
-      "eval_steps_per_second": 0.968,
-      "step": 800
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.9895592864638e-06,
-      "loss": 1.0807,
-      "step": 1000
-    },
-    {
-      "epoch": 0.13,
-      "eval_accuracy": 0.7675633401702844,
-      "eval_f1": 0.7670752144773497,
-      "eval_loss": 0.9420500993728638,
-      "eval_runtime": 547.3649,
-      "eval_samples_per_second": 247.619,
-      "eval_steps_per_second": 0.968,
-      "step": 1200
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 9.984323189926549e-06,
-      "loss": 0.9987,
-      "step": 1500
-    },
-    {
-      "epoch": 0.17,
-      "eval_accuracy": 0.7890333338252004,
-      "eval_f1": 0.785083992813201,
-      "eval_loss": 0.900003969669342,
-      "eval_runtime": 547.6023,
-      "eval_samples_per_second": 247.512,
-      "eval_steps_per_second": 0.968,
-      "step": 1600
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 9.979129066107032e-06,
-      "loss": 0.9487,
-      "step": 2000
-    },
-    {
-      "epoch": 0.21,
-      "eval_accuracy": 0.8020112440791513,
-      "eval_f1": 0.8005216483655947,
-      "eval_loss": 0.871986448764801,
-      "eval_runtime": 1177.1431,
-      "eval_samples_per_second": 115.141,
-      "eval_steps_per_second": 0.45,
-      "step": 2000
-    },
-    {
-      "epoch": 0.25,
-      "eval_accuracy": 0.8086809603210907,
-      "eval_f1": 0.8075228822632605,
-      "eval_loss": 0.8556529879570007,
-      "eval_runtime": 1163.7229,
-      "eval_samples_per_second": 116.469,
-      "eval_steps_per_second": 0.455,
-      "step": 2400
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 9.973966421825813e-06,
-      "loss": 0.9126,
-      "step": 2500
-    },
-    {
-      "epoch": 0.29,
-      "eval_accuracy": 0.8189585208576192,
-      "eval_f1": 0.8165624760835816,
-      "eval_loss": 0.8341620564460754,
-      "eval_runtime": 553.1292,
-      "eval_samples_per_second": 245.039,
-      "eval_steps_per_second": 0.958,
-      "step": 2800
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 9.968730325288564e-06,
-      "loss": 0.9058,
-      "step": 3000
-    },
-    {
-      "epoch": 0.34,
-      "eval_accuracy": 0.8222122209269725,
-      "eval_f1": 0.8218673977332275,
-      "eval_loss": 0.828486442565918,
-      "eval_runtime": 553.2621,
-      "eval_samples_per_second": 244.98,
-      "eval_steps_per_second": 0.958,
-      "step": 3200
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 9.963483735571879e-06,
-      "loss": 0.8814,
-      "step": 3500
-    },
-    {
-      "epoch": 0.38,
-      "eval_accuracy": 0.8263365255500302,
-      "eval_f1": 0.8258586186708066,
-      "eval_loss": 0.8168812990188599,
-      "eval_runtime": 552.7858,
-      "eval_samples_per_second": 245.191,
-      "eval_steps_per_second": 0.959,
-      "step": 3600
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 9.958247639034628e-06,
-      "loss": 0.8691,
-      "step": 4000
-    },
-    {
-      "epoch": 0.42,
-      "eval_accuracy": 0.8314199707831014,
-      "eval_f1": 0.831654438222622,
-      "eval_loss": 0.8018559813499451,
-      "eval_runtime": 553.5512,
-      "eval_samples_per_second": 244.852,
-      "eval_steps_per_second": 0.957,
-      "step": 4000
-    },
-    {
-      "epoch": 0.46,
-      "eval_accuracy": 0.8344965987398368,
-      "eval_f1": 0.8342882973172308,
-      "eval_loss": 0.7967696189880371,
-      "eval_runtime": 553.3959,
-      "eval_samples_per_second": 244.921,
-      "eval_steps_per_second": 0.958,
-      "step": 4400
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 9.953043022035678e-06,
-      "loss": 0.8562,
-      "step": 4500
-    },
-    {
-      "epoch": 0.5,
-      "eval_accuracy": 0.8366657321194056,
-      "eval_f1": 0.835771965342758,
-      "eval_loss": 0.791612982749939,
-      "eval_runtime": 553.559,
-      "eval_samples_per_second": 244.848,
-      "eval_steps_per_second": 0.957,
-      "step": 4800
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 9.947869884575027e-06,
-      "loss": 0.8383,
-      "step": 5000
-    },
-    {
-      "epoch": 0.55,
-      "eval_accuracy": 0.8397792500996031,
-      "eval_f1": 0.8395630994192902,
-      "eval_loss": 0.780993640422821,
-      "eval_runtime": 1166.8266,
-      "eval_samples_per_second": 116.16,
-      "eval_steps_per_second": 0.454,
-      "step": 5200
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 9.942665267576076e-06,
-      "loss": 0.8322,
-      "step": 5500
-    },
-    {
-      "epoch": 0.59,
-      "eval_accuracy": 0.8412179610146232,
-      "eval_f1": 0.8414414317356113,
-      "eval_loss": 0.7786160707473755,
-      "eval_runtime": 1185.712,
-      "eval_samples_per_second": 114.309,
-      "eval_steps_per_second": 0.447,
-      "step": 5600
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 9.937492130115425e-06,
-      "loss": 0.8246,
-      "step": 6000
-    },
-    {
-      "epoch": 0.63,
-      "eval_accuracy": 0.8436600805678113,
-      "eval_f1": 0.8442808035668997,
-      "eval_loss": 0.7705245614051819,
-      "eval_runtime": 1162.0224,
-      "eval_samples_per_second": 116.64,
-      "eval_steps_per_second": 0.456,
-      "step": 6000
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 9.932308499475342e-06,
-      "loss": 0.8176,
-      "step": 6500
-    },
-    {
-      "epoch": 0.69,
-      "eval_accuracy": 0.8434092284082693,
-      "eval_f1": 0.8442125530374853,
-      "eval_loss": 0.7737083435058594,
-      "eval_runtime": 1178.0184,
-      "eval_samples_per_second": 115.056,
-      "eval_steps_per_second": 0.45,
-      "step": 6600
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 9.927114375655824e-06,
-      "loss": 0.8124,
-      "step": 7000
-    },
-    {
-      "epoch": 0.76,
-      "eval_accuracy": 0.8492673641340436,
-      "eval_f1": 0.8495316142296381,
-      "eval_loss": 0.7571645379066467,
-      "eval_runtime": 1161.9628,
-      "eval_samples_per_second": 116.646,
-      "eval_steps_per_second": 0.456,
-      "step": 7200
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 9.921920251836308e-06,
-      "loss": 0.8052,
-      "step": 7500
-    },
-    {
-      "epoch": 0.8,
-      "eval_accuracy": 0.8490829140167333,
-      "eval_f1": 0.8487398376232175,
-      "eval_loss": 0.7558021545410156,
-      "eval_runtime": 599.2259,
-      "eval_samples_per_second": 226.188,
-      "eval_steps_per_second": 0.884,
-      "step": 7600
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 9.916684155299056e-06,
-      "loss": 0.8027,
-      "step": 8000
-    },
-    {
-      "epoch": 0.84,
-      "eval_accuracy": 0.8517094836872316,
-      "eval_f1": 0.8520268181955559,
-      "eval_loss": 0.7500344514846802,
-      "eval_runtime": 599.1188,
-      "eval_samples_per_second": 226.229,
-      "eval_steps_per_second": 0.885,
-      "step": 8000
-    },
-    {
-      "epoch": 0.88,
-      "eval_accuracy": 0.8508462571382195,
-      "eval_f1": 0.8516035377346363,
-      "eval_loss": 0.7509218454360962,
-      "eval_runtime": 599.0341,
-      "eval_samples_per_second": 226.261,
-      "eval_steps_per_second": 0.885,
-      "step": 8400
     }
   ],
   "max_steps": 953000,
   "num_train_epochs": 100,
-  "total_flos": 3.4554660161659546e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04197271773347324,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "eval_accuracy": 0.7687216869069928,
+      "eval_f1": 0.7665424923390772,
+      "eval_loss": 0.9364227652549744,
+      "eval_runtime": 684.6631,
+      "eval_samples_per_second": 197.963,
+      "eval_steps_per_second": 0.774,
       "step": 400
     }
   ],
   "max_steps": 953000,
   "num_train_epochs": 100,
+  "total_flos": 1.696937333370624e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea41fd91ff10f125f04655f13d7342a4a6d46b520f2bf021943ae174d4b760bb
 size 3963

 version https://git-lfs.github.com/spec/v1
+oid sha256:830ad87020514b7aac2f6ee4fe46c6c863455341fec1d90ca196628ce27b82af
 size 3963

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47de52e58786b8b98181cbc186cb69933573acd6041e65760d03400d3c901a9f
-size 2242911029

 version https://git-lfs.github.com/spec/v1
+oid sha256:88eafde7549bbcb49017355eaeb21a46d8f90e1af6a6b1611cf95b3efd4e3a31
+size 2268278205

runs/Jun18_23-02-20_bb321ddc67eb/events.out.tfevents.1687130449.bb321ddc67eb.435.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abf98e8f702e5b3a2fae161117f29939a683b8449198803d4cc342d19c74e215
+size 4721

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea41fd91ff10f125f04655f13d7342a4a6d46b520f2bf021943ae174d4b760bb
 size 3963

 version https://git-lfs.github.com/spec/v1
+oid sha256:830ad87020514b7aac2f6ee4fe46c6c863455341fec1d90ca196628ce27b82af
 size 3963