End of training

Browse files

Files changed (6) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Dec13_11-33-05_d7f040c448a8/events.out.tfevents.1670931860.d7f040c448a8.8569.2 +3 -0
train.log +6 -0
train_results.json +5 -5
trainer_state.json +90 -6

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.33,
-    "eval_loss": 0.5382302403450012,
-    "eval_runtime": 19.0163,
     "eval_samples": 64,
-    "eval_samples_per_second": 3.366,
-    "eval_steps_per_second": 0.105,
-    "eval_wer": 55.12820512820513,
-    "train_loss": 0.13119232177734375,
-    "train_runtime": 451.4438,
-    "train_samples_per_second": 10.633,
-    "train_steps_per_second": 0.332
 }

 {
+    "epoch": 0.25,
+    "eval_loss": 0.5364237427711487,
+    "eval_runtime": 16.6084,
     "eval_samples": 64,
+    "eval_samples_per_second": 3.853,
+    "eval_steps_per_second": 0.12,
+    "eval_wer": 54.57875457875458,
+    "train_loss": 0.0719480574131012,
+    "train_runtime": 406.2172,
+    "train_samples_per_second": 15.755,
+    "train_steps_per_second": 0.492
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.33,
-    "eval_loss": 0.5382302403450012,
-    "eval_runtime": 19.0163,
     "eval_samples": 64,
-    "eval_samples_per_second": 3.366,
-    "eval_steps_per_second": 0.105,
-    "eval_wer": 55.12820512820513
 }

 {
+    "epoch": 0.25,
+    "eval_loss": 0.5364237427711487,
+    "eval_runtime": 16.6084,
     "eval_samples": 64,
+    "eval_samples_per_second": 3.853,
+    "eval_steps_per_second": 0.12,
+    "eval_wer": 54.57875457875458
 }

runs/Dec13_11-33-05_d7f040c448a8/events.out.tfevents.1670931860.d7f040c448a8.8569.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be20d1af189dd3a743d98769b5c7b0b572ea727fe663c5b4953c52758920bdfd
+size 358

train.log CHANGED Viewed

@@ -83,3 +83,9 @@
 {'loss': 0.2844, 'learning_rate': 7.5500000000000006e-06, 'epoch': 0.25}
 {'eval_loss': 0.5341857671737671, 'eval_wer': 55.311355311355314, 'eval_runtime': 17.7172, 'eval_samples_per_second': 3.612, 'eval_steps_per_second': 0.113, 'epoch': 0.25}
 {'train_runtime': 406.2172, 'train_samples_per_second': 15.755, 'train_steps_per_second': 0.492, 'train_loss': 0.0719480574131012, 'epoch': 0.25}

 {'loss': 0.2844, 'learning_rate': 7.5500000000000006e-06, 'epoch': 0.25}
 {'eval_loss': 0.5341857671737671, 'eval_wer': 55.311355311355314, 'eval_runtime': 17.7172, 'eval_samples_per_second': 3.612, 'eval_steps_per_second': 0.113, 'epoch': 0.25}
 {'train_runtime': 406.2172, 'train_samples_per_second': 15.755, 'train_steps_per_second': 0.492, 'train_loss': 0.0719480574131012, 'epoch': 0.25}
+***** train metrics *****
+  epoch                    =       0.25
+  train_loss               =     0.0719
+  train_runtime            = 0:06:46.21
+  train_samples_per_second =     15.755
+  train_steps_per_second   =      0.492

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 0.33,
-    "train_loss": 0.13119232177734375,
-    "train_runtime": 451.4438,
-    "train_samples_per_second": 10.633,
-    "train_steps_per_second": 0.332
 }

 {
+    "epoch": 0.25,
+    "train_loss": 0.0719480574131012,
+    "train_runtime": 406.2172,
+    "train_samples_per_second": 15.755,
+    "train_steps_per_second": 0.492
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 55.12820512820513,
-  "best_model_checkpoint": "./checkpoint-140",
-  "epoch": 0.3333333333333333,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -240,11 +240,95 @@
       "train_runtime": 451.4438,
       "train_samples_per_second": 10.633,
       "train_steps_per_second": 0.332
     }
   ],
-  "max_steps": 150,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.18170648576e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 54.57875457875458,
+  "best_model_checkpoint": "./checkpoint-160",
+  "epoch": 0.25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 451.4438,
       "train_samples_per_second": 10.633,
       "train_steps_per_second": 0.332
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.5e-06,
+      "loss": 0.2716,
+      "step": 160
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.5364237427711487,
+      "eval_runtime": 16.1176,
+      "eval_samples_per_second": 3.971,
+      "eval_steps_per_second": 0.124,
+      "eval_wer": 54.57875457875458,
+      "step": 160
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.050000000000001e-06,
+      "loss": 0.2765,
+      "step": 170
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.5404230952262878,
+      "eval_runtime": 17.8451,
+      "eval_samples_per_second": 3.586,
+      "eval_steps_per_second": 0.112,
+      "eval_wer": 54.761904761904766,
+      "step": 170
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 8.550000000000001e-06,
+      "loss": 0.2533,
+      "step": 180
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.53352290391922,
+      "eval_runtime": 17.1042,
+      "eval_samples_per_second": 3.742,
+      "eval_steps_per_second": 0.117,
+      "eval_wer": 55.12820512820513,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 8.050000000000001e-06,
+      "loss": 0.3533,
+      "step": 190
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.530021071434021,
+      "eval_runtime": 18.1912,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 0.11,
+      "eval_wer": 56.59340659340659,
+      "step": 190
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 7.5500000000000006e-06,
+      "loss": 0.2844,
+      "step": 200
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.5341857671737671,
+      "eval_runtime": 17.7172,
+      "eval_samples_per_second": 3.612,
+      "eval_steps_per_second": 0.113,
+      "eval_wer": 55.311355311355314,
+      "step": 200
+    },
+    {
+      "epoch": 0.25,
+      "step": 200,
+      "total_flos": 1.57560864768e+17,
+      "train_loss": 0.0719480574131012,
+      "train_runtime": 406.2172,
+      "train_samples_per_second": 15.755,
+      "train_steps_per_second": 0.492
     }
   ],
+  "max_steps": 200,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.57560864768e+17,
   "trial_name": null,
   "trial_params": null
 }