End of training

Browse files

Files changed (6) hide show

README.md +2 -0
all_results.json +13 -13
eval_results.json +7 -7
runs/Oct03_11-33-38_8523e2deba23/events.out.tfevents.1727960055.8523e2deba23.123.1 +3 -0
train_results.json +7 -7
trainer_state.json +380 -380

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: DewiBrynJones/wav2vec2-xlsr-53-ft-btb-cv-cy
 tags:
 - generated_from_trainer
 metrics:
 - wer

 license: apache-2.0
 base_model: DewiBrynJones/wav2vec2-xlsr-53-ft-btb-cv-cy
 tags:
+- automatic-speech-recognition
+- ./data-configs/btb.json
 - generated_from_trainer
 metrics:
 - wer

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 1.4240956992309883,
-    "eval_loss": 0.43451622128486633,
-    "eval_runtime": 181.7486,
-    "eval_samples": 7022,
-    "eval_samples_per_second": 38.636,
-    "eval_steps_per_second": 0.605,
-    "eval_wer": 0.3308175766353526,
-    "total_flos": 4.5974516642218747e+18,
-    "train_loss": 0.7817989181518554,
-    "train_runtime": 11412.7197,
-    "train_samples": 28086,
-    "train_samples_per_second": 3.505,
-    "train_steps_per_second": 0.876
 }

 {
+    "epoch": 1.0726161106939827,
+    "eval_loss": Infinity,
+    "eval_runtime": 104.9656,
+    "eval_samples": 3901,
+    "eval_samples_per_second": 37.165,
+    "eval_steps_per_second": 0.581,
+    "eval_wer": 0.3401922426701444,
+    "total_flos": 4.496412338111517e+18,
+    "train_loss": 0.8045109680175782,
+    "train_runtime": 7510.9356,
+    "train_samples": 37291,
+    "train_samples_per_second": 5.326,
+    "train_steps_per_second": 1.331
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.4240956992309883,
-    "eval_loss": 0.43451622128486633,
-    "eval_runtime": 181.7486,
-    "eval_samples": 7022,
-    "eval_samples_per_second": 38.636,
-    "eval_steps_per_second": 0.605,
-    "eval_wer": 0.3308175766353526
 }

 {
+    "epoch": 1.0726161106939827,
+    "eval_loss": Infinity,
+    "eval_runtime": 104.9656,
+    "eval_samples": 3901,
+    "eval_samples_per_second": 37.165,
+    "eval_steps_per_second": 0.581,
+    "eval_wer": 0.3401922426701444
 }

runs/Oct03_11-33-38_8523e2deba23/events.out.tfevents.1727960055.8523e2deba23.123.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6218c0956f391bb4b373bc0ebc63efad935ea81d03f6a3bf1d97812d9fc1959e
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.4240956992309883,
-    "total_flos": 4.5974516642218747e+18,
-    "train_loss": 0.7817989181518554,
-    "train_runtime": 11412.7197,
-    "train_samples": 28086,
-    "train_samples_per_second": 3.505,
-    "train_steps_per_second": 0.876
 }

 {
+    "epoch": 1.0726161106939827,
+    "total_flos": 4.496412338111517e+18,
+    "train_loss": 0.8045109680175782,
+    "train_runtime": 7510.9356,
+    "train_samples": 37291,
+    "train_samples_per_second": 5.326,
+    "train_steps_per_second": 1.331
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4240956992309883,
   "eval_steps": 200,
   "global_step": 10000,
   "is_hyper_param_search": false,
@@ -9,603 +9,603 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.028481913984619765,
-      "eval_loss": 1.2521600723266602,
-      "eval_runtime": 184.7297,
-      "eval_samples_per_second": 38.012,
-      "eval_steps_per_second": 0.595,
-      "eval_wer": 0.6291606319509959,
       "step": 200
     },
     {
-      "epoch": 0.05696382796923953,
-      "eval_loss": 0.6599467396736145,
-      "eval_runtime": 185.0187,
-      "eval_samples_per_second": 37.953,
-      "eval_steps_per_second": 0.595,
-      "eval_wer": 0.45444398676570247,
       "step": 400
     },
     {
-      "epoch": 0.07120478496154942,
-      "grad_norm": 18.865299224853516,
-      "learning_rate": 0.00014879999999999998,
-      "loss": 2.2791,
       "step": 500
     },
     {
-      "epoch": 0.0854457419538593,
-      "eval_loss": 0.6628636717796326,
-      "eval_runtime": 185.7673,
-      "eval_samples_per_second": 37.8,
-      "eval_steps_per_second": 0.592,
-      "eval_wer": 0.4394557461566059,
       "step": 600
     },
     {
-      "epoch": 0.11392765593847906,
-      "eval_loss": 0.7910040020942688,
-      "eval_runtime": 186.4058,
-      "eval_samples_per_second": 37.671,
-      "eval_steps_per_second": 0.59,
-      "eval_wer": 0.5453035517346763,
       "step": 800
     },
     {
-      "epoch": 0.14240956992309883,
-      "grad_norm": 3.8627092838287354,
       "learning_rate": 0.0002988,
-      "loss": 0.8206,
       "step": 1000
     },
     {
-      "epoch": 0.14240956992309883,
-      "eval_loss": 0.7757941484451294,
-      "eval_runtime": 186.8087,
-      "eval_samples_per_second": 37.589,
-      "eval_steps_per_second": 0.589,
-      "eval_wer": 0.5701245033816553,
       "step": 1000
     },
     {
-      "epoch": 0.1708914839077186,
-      "eval_loss": 0.802534818649292,
-      "eval_runtime": 187.4308,
-      "eval_samples_per_second": 37.464,
-      "eval_steps_per_second": 0.587,
-      "eval_wer": 0.5782564211589312,
       "step": 1200
     },
     {
-      "epoch": 0.19937339789233838,
-      "eval_loss": 0.7715001106262207,
-      "eval_runtime": 187.8412,
-      "eval_samples_per_second": 37.383,
-      "eval_steps_per_second": 0.586,
-      "eval_wer": 0.5211336850077731,
       "step": 1400
     },
     {
-      "epoch": 0.21361435488464825,
-      "grad_norm": 11.042049407958984,
       "learning_rate": 0.00028346666666666665,
-      "loss": 0.9068,
       "step": 1500
     },
     {
-      "epoch": 0.22785531187695812,
-      "eval_loss": 0.7349154949188232,
-      "eval_runtime": 191.6788,
-      "eval_samples_per_second": 36.634,
-      "eval_steps_per_second": 0.574,
-      "eval_wer": 0.512775880625573,
       "step": 1600
     },
     {
-      "epoch": 0.2563372258615779,
-      "eval_loss": 0.7257962226867676,
-      "eval_runtime": 189.501,
-      "eval_samples_per_second": 37.055,
-      "eval_steps_per_second": 0.58,
-      "eval_wer": 0.5152473458323922,
       "step": 1800
     },
     {
-      "epoch": 0.28481913984619767,
-      "grad_norm": 6.190296649932861,
       "learning_rate": 0.0002668,
-      "loss": 0.8679,
       "step": 2000
     },
     {
-      "epoch": 0.28481913984619767,
-      "eval_loss": 0.7084089517593384,
-      "eval_runtime": 188.267,
-      "eval_samples_per_second": 37.298,
-      "eval_steps_per_second": 0.584,
-      "eval_wer": 0.5216386080070158,
       "step": 2000
     },
     {
-      "epoch": 0.3133010538308174,
-      "eval_loss": 0.6904259324073792,
-      "eval_runtime": 188.556,
-      "eval_samples_per_second": 37.241,
-      "eval_steps_per_second": 0.583,
-      "eval_wer": 0.5014151131426142,
       "step": 2200
     },
     {
-      "epoch": 0.3417829678154372,
-      "eval_loss": 0.6992842555046082,
-      "eval_runtime": 189.0868,
-      "eval_samples_per_second": 37.136,
-      "eval_steps_per_second": 0.582,
-      "eval_wer": 0.5177586733812567,
       "step": 2400
     },
     {
-      "epoch": 0.3560239248077471,
-      "grad_norm": 4.8257222175598145,
       "learning_rate": 0.0002501333333333333,
-      "loss": 0.8577,
       "step": 2500
     },
     {
-      "epoch": 0.37026488180005696,
-      "eval_loss": 0.6746060848236084,
-      "eval_runtime": 190.1492,
-      "eval_samples_per_second": 36.929,
-      "eval_steps_per_second": 0.578,
-      "eval_wer": 0.48673248382253287,
       "step": 2600
     },
     {
-      "epoch": 0.39874679578467676,
-      "eval_loss": 0.6621994972229004,
-      "eval_runtime": 189.6459,
-      "eval_samples_per_second": 37.027,
-      "eval_steps_per_second": 0.58,
-      "eval_wer": 0.4962595835714001,
       "step": 2800
     },
     {
-      "epoch": 0.4272287097692965,
-      "grad_norm": 3.6695899963378906,
       "learning_rate": 0.00023346666666666666,
-      "loss": 0.7995,
       "step": 3000
     },
     {
-      "epoch": 0.4272287097692965,
-      "eval_loss": 0.6793097853660583,
-      "eval_runtime": 188.7722,
-      "eval_samples_per_second": 37.198,
-      "eval_steps_per_second": 0.583,
-      "eval_wer": 0.49348250707556574,
       "step": 3000
     },
     {
-      "epoch": 0.45571062375391624,
-      "eval_loss": 0.6368467211723328,
-      "eval_runtime": 188.0679,
-      "eval_samples_per_second": 37.338,
-      "eval_steps_per_second": 0.585,
-      "eval_wer": 0.47005673740017806,
       "step": 3200
     },
     {
-      "epoch": 0.48419253773853604,
-      "eval_loss": 0.6363435387611389,
-      "eval_runtime": 188.2666,
-      "eval_samples_per_second": 37.298,
-      "eval_steps_per_second": 0.584,
-      "eval_wer": 0.478055780703969,
       "step": 3400
     },
     {
-      "epoch": 0.4984334947308459,
-      "grad_norm": 3.4502739906311035,
       "learning_rate": 0.0002168333333333333,
-      "loss": 0.8141,
       "step": 3500
     },
     {
-      "epoch": 0.5126744517231558,
-      "eval_loss": 0.6217373609542847,
-      "eval_runtime": 187.6755,
-      "eval_samples_per_second": 37.416,
-      "eval_steps_per_second": 0.586,
-      "eval_wer": 0.46555229274904,
       "step": 3600
     },
     {
-      "epoch": 0.5411563657077756,
-      "eval_loss": 0.641762912273407,
-      "eval_runtime": 186.9231,
-      "eval_samples_per_second": 37.566,
-      "eval_steps_per_second": 0.588,
-      "eval_wer": 0.4940140049695053,
       "step": 3800
     },
     {
-      "epoch": 0.5696382796923953,
-      "grad_norm": 5.877405643463135,
-      "learning_rate": 0.00020016666666666666,
-      "loss": 0.7953,
       "step": 4000
     },
     {
-      "epoch": 0.5696382796923953,
-      "eval_loss": 0.6017736196517944,
-      "eval_runtime": 182.787,
-      "eval_samples_per_second": 38.416,
-      "eval_steps_per_second": 0.602,
-      "eval_wer": 0.4542313876081266,
       "step": 4000
     },
     {
-      "epoch": 0.5981201936770151,
-      "eval_loss": 0.5962206721305847,
-      "eval_runtime": 183.0007,
-      "eval_samples_per_second": 38.371,
-      "eval_steps_per_second": 0.601,
-      "eval_wer": 0.4580315975497947,
       "step": 4200
     },
     {
-      "epoch": 0.6266021076616348,
-      "eval_loss": 0.5883399844169617,
-      "eval_runtime": 182.7298,
-      "eval_samples_per_second": 38.428,
-      "eval_steps_per_second": 0.602,
-      "eval_wer": 0.44590015812062345,
       "step": 4400
     },
     {
-      "epoch": 0.6408430646539447,
-      "grad_norm": 3.615546226501465,
       "learning_rate": 0.0001835333333333333,
-      "loss": 0.7596,
       "step": 4500
     },
     {
-      "epoch": 0.6550840216462547,
-      "eval_loss": 0.578825056552887,
-      "eval_runtime": 183.3674,
-      "eval_samples_per_second": 38.295,
-      "eval_steps_per_second": 0.6,
-      "eval_wer": 0.43253298608804264,
       "step": 4600
     },
     {
-      "epoch": 0.6835659356308744,
-      "eval_loss": 0.5708740949630737,
-      "eval_runtime": 182.6951,
-      "eval_samples_per_second": 38.436,
-      "eval_steps_per_second": 0.602,
-      "eval_wer": 0.4412362641013035,
       "step": 4800
     },
     {
-      "epoch": 0.7120478496154942,
-      "grad_norm": 4.345168590545654,
       "learning_rate": 0.0001669,
-      "loss": 0.7533,
       "step": 5000
     },
     {
-      "epoch": 0.7120478496154942,
-      "eval_loss": 0.5594890117645264,
-      "eval_runtime": 182.5857,
-      "eval_samples_per_second": 38.459,
-      "eval_steps_per_second": 0.602,
-      "eval_wer": 0.4352170504524376,
       "step": 5000
     },
     {
-      "epoch": 0.7405297636001139,
-      "eval_loss": 0.5545539259910583,
-      "eval_runtime": 182.2233,
-      "eval_samples_per_second": 38.535,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.4231786231547057,
       "step": 5200
     },
     {
-      "epoch": 0.7690116775847337,
-      "eval_loss": 0.5545418858528137,
-      "eval_runtime": 182.2691,
-      "eval_samples_per_second": 38.525,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.4244276432054638,
       "step": 5400
     },
     {
-      "epoch": 0.7832526345770435,
-      "grad_norm": 9.471431732177734,
-      "learning_rate": 0.00015026666666666667,
-      "loss": 0.7591,
       "step": 5500
     },
     {
-      "epoch": 0.7974935915693535,
-      "eval_loss": 0.5442594885826111,
-      "eval_runtime": 182.3947,
-      "eval_samples_per_second": 38.499,
-      "eval_steps_per_second": 0.603,
-      "eval_wer": 0.4076455972043211,
       "step": 5600
     },
     {
-      "epoch": 0.8259755055539733,
-      "eval_loss": 0.5341240763664246,
-      "eval_runtime": 182.0603,
-      "eval_samples_per_second": 38.57,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.41462150706227824,
       "step": 5800
     },
     {
-      "epoch": 0.854457419538593,
-      "grad_norm": 4.406210422515869,
-      "learning_rate": 0.00013363333333333332,
-      "loss": 0.6621,
       "step": 6000
     },
     {
-      "epoch": 0.854457419538593,
-      "eval_loss": 0.5104002952575684,
-      "eval_runtime": 181.8706,
-      "eval_samples_per_second": 38.61,
-      "eval_steps_per_second": 0.605,
-      "eval_wer": 0.3955141577751498,
       "step": 6000
     },
     {
-      "epoch": 0.8829393335232127,
-      "eval_loss": 0.5139421820640564,
-      "eval_runtime": 181.902,
-      "eval_samples_per_second": 38.603,
-      "eval_steps_per_second": 0.605,
-      "eval_wer": 0.40112146055621256,
       "step": 6200
     },
     {
-      "epoch": 0.9114212475078325,
-      "eval_loss": 0.5044221878051758,
-      "eval_runtime": 181.9538,
-      "eval_samples_per_second": 38.592,
-      "eval_steps_per_second": 0.605,
-      "eval_wer": 0.38039304269256835,
       "step": 6400
     },
     {
-      "epoch": 0.9256622045001424,
-      "grad_norm": 8.09687328338623,
-      "learning_rate": 0.000117,
-      "loss": 0.6705,
       "step": 6500
     },
     {
-      "epoch": 0.9399031614924523,
-      "eval_loss": 0.49985769391059875,
-      "eval_runtime": 182.1414,
-      "eval_samples_per_second": 38.552,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.3896012437050718,
       "step": 6600
     },
     {
-      "epoch": 0.9683850754770721,
-      "eval_loss": 0.5097447037696838,
-      "eval_runtime": 181.5418,
-      "eval_samples_per_second": 38.68,
-      "eval_steps_per_second": 0.606,
-      "eval_wer": 0.4052804315762899,
       "step": 6800
     },
     {
-      "epoch": 0.9968669894616918,
-      "grad_norm": 4.639442443847656,
-      "learning_rate": 0.00010033333333333332,
-      "loss": 0.6665,
       "step": 7000
     },
     {
-      "epoch": 0.9968669894616918,
-      "eval_loss": 0.49253013730049133,
-      "eval_runtime": 181.6405,
-      "eval_samples_per_second": 38.659,
-      "eval_steps_per_second": 0.606,
-      "eval_wer": 0.3784796502743858,
       "step": 7000
     },
     {
-      "epoch": 1.0253489034463117,
-      "eval_loss": 0.4896470010280609,
-      "eval_runtime": 181.3934,
-      "eval_samples_per_second": 38.711,
-      "eval_steps_per_second": 0.606,
-      "eval_wer": 0.3688728258414276,
       "step": 7200
     },
     {
-      "epoch": 1.0538308174309314,
-      "eval_loss": 0.47494611144065857,
-      "eval_runtime": 181.7386,
-      "eval_samples_per_second": 38.638,
-      "eval_steps_per_second": 0.605,
-      "eval_wer": 0.3687399513679427,
       "step": 7400
     },
     {
-      "epoch": 1.0680717744232413,
-      "grad_norm": 0.6623511910438538,
-      "learning_rate": 8.366666666666666e-05,
-      "loss": 0.5826,
       "step": 7500
     },
     {
-      "epoch": 1.0823127314155512,
-      "eval_loss": 0.4684299826622009,
-      "eval_runtime": 182.4026,
-      "eval_samples_per_second": 38.497,
-      "eval_steps_per_second": 0.603,
-      "eval_wer": 0.3628004624031677,
       "step": 7600
     },
     {
-      "epoch": 1.110794645400171,
-      "eval_loss": 0.47290024161338806,
-      "eval_runtime": 182.1043,
-      "eval_samples_per_second": 38.56,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.358495329462257,
       "step": 7800
     },
     {
-      "epoch": 1.1392765593847907,
-      "grad_norm": 2.393817186355591,
-      "learning_rate": 6.699999999999999e-05,
-      "loss": 0.5836,
       "step": 8000
     },
     {
-      "epoch": 1.1392765593847907,
-      "eval_loss": 0.46409761905670166,
-      "eval_runtime": 181.7327,
-      "eval_samples_per_second": 38.639,
-      "eval_steps_per_second": 0.605,
-      "eval_wer": 0.3553196295459679,
       "step": 8000
     },
     {
-      "epoch": 1.1677584733694104,
-      "eval_loss": 0.45749881863594055,
-      "eval_runtime": 181.5866,
-      "eval_samples_per_second": 38.67,
-      "eval_steps_per_second": 0.606,
-      "eval_wer": 0.3529810388126337,
       "step": 8200
     },
     {
-      "epoch": 1.1962403873540302,
-      "eval_loss": 0.45851147174835205,
-      "eval_runtime": 181.5801,
-      "eval_samples_per_second": 38.672,
-      "eval_steps_per_second": 0.606,
-      "eval_wer": 0.3485563188455866,
       "step": 8400
     },
     {
-      "epoch": 1.21048134434634,
-      "grad_norm": 1.9676859378814697,
-      "learning_rate": 5.033333333333333e-05,
-      "loss": 0.5199,
       "step": 8500
     },
     {
-      "epoch": 1.22472230133865,
-      "eval_loss": 0.4548875391483307,
-      "eval_runtime": 182.6274,
-      "eval_samples_per_second": 38.45,
-      "eval_steps_per_second": 0.602,
-      "eval_wer": 0.3450750076402822,
       "step": 8600
     },
     {
-      "epoch": 1.2532042153232696,
-      "eval_loss": 0.4520675539970398,
-      "eval_runtime": 182.8881,
-      "eval_samples_per_second": 38.395,
-      "eval_steps_per_second": 0.601,
-      "eval_wer": 0.34082302448876545,
       "step": 8800
     },
     {
-      "epoch": 1.2816861293078894,
-      "grad_norm": 1.1400251388549805,
-      "learning_rate": 3.373333333333333e-05,
-      "loss": 0.5268,
       "step": 9000
     },
     {
-      "epoch": 1.2816861293078894,
-      "eval_loss": 0.44252264499664307,
-      "eval_runtime": 182.3349,
-      "eval_samples_per_second": 38.512,
-      "eval_steps_per_second": 0.603,
-      "eval_wer": 0.33950756720126496,
       "step": 9000
     },
     {
-      "epoch": 1.3101680432925091,
-      "eval_loss": 0.44072064757347107,
-      "eval_runtime": 184.1579,
-      "eval_samples_per_second": 38.13,
-      "eval_steps_per_second": 0.597,
-      "eval_wer": 0.3361857053641425,
       "step": 9200
     },
     {
-      "epoch": 1.338649957277129,
-      "eval_loss": 0.4383063018321991,
-      "eval_runtime": 181.6966,
-      "eval_samples_per_second": 38.647,
-      "eval_steps_per_second": 0.605,
-      "eval_wer": 0.33397998910429316,
       "step": 9400
     },
     {
-      "epoch": 1.352890914269439,
-      "grad_norm": 1.0755033493041992,
-      "learning_rate": 1.71e-05,
-      "loss": 0.5013,
       "step": 9500
     },
     {
-      "epoch": 1.3671318712617488,
-      "eval_loss": 0.4356846809387207,
-      "eval_runtime": 183.1225,
-      "eval_samples_per_second": 38.346,
-      "eval_steps_per_second": 0.601,
-      "eval_wer": 0.33253165734330775,
       "step": 9600
     },
     {
-      "epoch": 1.3956137852463686,
-      "eval_loss": 0.43495818972587585,
-      "eval_runtime": 182.2639,
-      "eval_samples_per_second": 38.527,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.3316812607130044,
       "step": 9800
     },
     {
-      "epoch": 1.4240956992309883,
-      "grad_norm": 1.6312005519866943,
-      "learning_rate": 4.666666666666666e-07,
-      "loss": 0.5095,
       "step": 10000
     },
     {
-      "epoch": 1.4240956992309883,
-      "eval_loss": 0.43451622128486633,
-      "eval_runtime": 182.2078,
-      "eval_samples_per_second": 38.538,
-      "eval_steps_per_second": 0.604,
-      "eval_wer": 0.3308175766353526,
       "step": 10000
     },
     {
-      "epoch": 1.4240956992309883,
       "step": 10000,
-      "total_flos": 4.5974516642218747e+18,
-      "train_loss": 0.7817989181518554,
-      "train_runtime": 11412.7197,
-      "train_samples_per_second": 3.505,
-      "train_steps_per_second": 0.876
     }
   ],
   "logging_steps": 500,
@@ -625,7 +625,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.5974516642218747e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0726161106939827,
   "eval_steps": 200,
   "global_step": 10000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.021452322213879653,
+      "eval_loss": Infinity,
+      "eval_runtime": 109.0854,
+      "eval_samples_per_second": 35.761,
+      "eval_steps_per_second": 0.559,
+      "eval_wer": 0.5591701685746027,
       "step": 200
     },
     {
+      "epoch": 0.042904644427759306,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.5961,
+      "eval_samples_per_second": 36.943,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.4289474955320485,
       "step": 400
     },
     {
+      "epoch": 0.05363080553469913,
+      "grad_norm": 2.6033225059509277,
+      "learning_rate": 0.0001494,
+      "loss": 2.1964,
       "step": 500
     },
     {
+      "epoch": 0.06435696664163895,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.8581,
+      "eval_samples_per_second": 37.203,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.43744867893542,
       "step": 600
     },
     {
+      "epoch": 0.08580928885551861,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.5471,
+      "eval_samples_per_second": 37.313,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.4944452494807516,
       "step": 800
     },
     {
+      "epoch": 0.10726161106939826,
+      "grad_norm": 4.917770862579346,
       "learning_rate": 0.0002988,
+      "loss": 0.8327,
       "step": 1000
     },
     {
+      "epoch": 0.10726161106939826,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.2475,
+      "eval_samples_per_second": 37.421,
+      "eval_steps_per_second": 0.585,
+      "eval_wer": 0.5149736753127566,
       "step": 1000
     },
     {
+      "epoch": 0.1287139332832779,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.0588,
+      "eval_samples_per_second": 37.488,
+      "eval_steps_per_second": 0.586,
+      "eval_wer": 0.5633966091870743,
       "step": 1200
     },
     {
+      "epoch": 0.15016625549715756,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.6247,
+      "eval_samples_per_second": 37.286,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.5355021011447616,
       "step": 1400
     },
     {
+      "epoch": 0.1608924166040974,
+      "grad_norm": 2.821734666824341,
       "learning_rate": 0.00028346666666666665,
+      "loss": 0.91,
       "step": 1500
     },
     {
+      "epoch": 0.17161857771103722,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.8778,
+      "eval_samples_per_second": 37.196,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.515239337294112,
       "step": 1600
     },
     {
+      "epoch": 0.19307089992491688,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.4509,
+      "eval_samples_per_second": 36.994,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.5594599816451722,
       "step": 1800
     },
     {
+      "epoch": 0.21452322213879652,
+      "grad_norm": 9.015162467956543,
       "learning_rate": 0.0002668,
+      "loss": 0.8721,
       "step": 2000
     },
     {
+      "epoch": 0.21452322213879652,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.3779,
+      "eval_samples_per_second": 37.019,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.5056513548761049,
       "step": 2000
     },
     {
+      "epoch": 0.23597554435267618,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.6302,
+      "eval_samples_per_second": 36.931,
+      "eval_steps_per_second": 0.577,
+      "eval_wer": 0.5041298362556151,
       "step": 2200
     },
     {
+      "epoch": 0.2574278665665558,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.5892,
+      "eval_samples_per_second": 36.945,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.5145631067961165,
       "step": 2400
     },
     {
+      "epoch": 0.26815402767349567,
+      "grad_norm": 5.016167163848877,
       "learning_rate": 0.0002501333333333333,
+      "loss": 0.8218,
       "step": 2500
     },
     {
+      "epoch": 0.27888018878043547,
+      "eval_loss": Infinity,
+      "eval_runtime": 106.4951,
+      "eval_samples_per_second": 36.631,
+      "eval_steps_per_second": 0.573,
+      "eval_wer": 0.5018113316910593,
       "step": 2600
     },
     {
+      "epoch": 0.3003325109943151,
+      "eval_loss": Infinity,
+      "eval_runtime": 106.2902,
+      "eval_samples_per_second": 36.701,
+      "eval_steps_per_second": 0.574,
+      "eval_wer": 0.5090566584552964,
       "step": 2800
     },
     {
+      "epoch": 0.3217848332081948,
+      "grad_norm": 2.5943267345428467,
       "learning_rate": 0.00023346666666666666,
+      "loss": 0.8469,
       "step": 3000
     },
     {
+      "epoch": 0.3217848332081948,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.8685,
+      "eval_samples_per_second": 36.848,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.5036709655605468,
       "step": 3000
     },
     {
+      "epoch": 0.34323715542207445,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.9311,
+      "eval_samples_per_second": 36.826,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.4703183113558421,
       "step": 3200
     },
     {
+      "epoch": 0.3646894776359541,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.4279,
+      "eval_samples_per_second": 37.002,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.47951987634642323,
       "step": 3400
     },
     {
+      "epoch": 0.3754156387428939,
+      "grad_norm": 4.555402755737305,
       "learning_rate": 0.0002168333333333333,
+      "loss": 0.8142,
       "step": 3500
     },
     {
+      "epoch": 0.38614179984983377,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.6085,
+      "eval_samples_per_second": 36.938,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.4714051103704777,
       "step": 3600
     },
     {
+      "epoch": 0.40759412206371337,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.5848,
+      "eval_samples_per_second": 36.947,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.4553929382215138,
       "step": 3800
     },
     {
+      "epoch": 0.42904644427759303,
+      "grad_norm": 15.551188468933105,
+      "learning_rate": 0.0002002,
+      "loss": 0.8085,
       "step": 4000
     },
     {
+      "epoch": 0.42904644427759303,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.8874,
+      "eval_samples_per_second": 36.841,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.4505868714679032,
       "step": 4000
     },
     {
+      "epoch": 0.4504987664914727,
+      "eval_loss": Infinity,
+      "eval_runtime": 107.6738,
+      "eval_samples_per_second": 36.23,
+      "eval_steps_per_second": 0.567,
+      "eval_wer": 0.4457566536250785,
       "step": 4200
     },
     {
+      "epoch": 0.47195108870535235,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.5778,
+      "eval_samples_per_second": 36.949,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.43669999516978214,
       "step": 4400
     },
     {
+      "epoch": 0.4826772498122922,
+      "grad_norm": 4.841684818267822,
       "learning_rate": 0.0001835333333333333,
+      "loss": 0.7802,
       "step": 4500
     },
     {
+      "epoch": 0.493403410919232,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.9573,
+      "eval_samples_per_second": 36.817,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.4401052987489736,
       "step": 4600
     },
     {
+      "epoch": 0.5148557331331116,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.3523,
+      "eval_samples_per_second": 37.028,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.43336714485823313,
       "step": 4800
     },
     {
+      "epoch": 0.5363080553469913,
+      "grad_norm": 7.372885227203369,
       "learning_rate": 0.0001669,
+      "loss": 0.7493,
       "step": 5000
     },
     {
+      "epoch": 0.5363080553469913,
+      "eval_loss": Infinity,
+      "eval_runtime": 107.6356,
+      "eval_samples_per_second": 36.243,
+      "eval_steps_per_second": 0.567,
+      "eval_wer": 0.4224267014442351,
       "step": 5000
     },
     {
+      "epoch": 0.5577603775608709,
+      "eval_loss": Infinity,
+      "eval_runtime": 107.4854,
+      "eval_samples_per_second": 36.293,
+      "eval_steps_per_second": 0.568,
+      "eval_wer": 0.43278751871709414,
       "step": 5200
     },
     {
+      "epoch": 0.5792126997747507,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.275,
+      "eval_samples_per_second": 37.055,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.41764478577983866,
       "step": 5400
     },
     {
+      "epoch": 0.5899388608816905,
+      "grad_norm": 2.7961230278015137,
+      "learning_rate": 0.00015023333333333332,
+      "loss": 0.7668,
       "step": 5500
     },
     {
+      "epoch": 0.6006650219886303,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.464,
+      "eval_samples_per_second": 36.989,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.41829686518862,
       "step": 5600
     },
     {
+      "epoch": 0.62211734420251,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.96,
+      "eval_samples_per_second": 37.167,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.40296092353765156,
       "step": 5800
     },
     {
+      "epoch": 0.6435696664163896,
+      "grad_norm": 6.007960319519043,
+      "learning_rate": 0.0001336,
+      "loss": 0.6999,
       "step": 6000
     },
     {
+      "epoch": 0.6435696664163896,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.9116,
+      "eval_samples_per_second": 37.184,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.4124523015988021,
       "step": 6000
     },
     {
+      "epoch": 0.6650219886302692,
+      "eval_loss": Infinity,
+      "eval_runtime": 108.5507,
+      "eval_samples_per_second": 35.937,
+      "eval_steps_per_second": 0.562,
+      "eval_wer": 0.40759793266676325,
       "step": 6200
     },
     {
+      "epoch": 0.6864743108441489,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.9858,
+      "eval_samples_per_second": 37.157,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.39170651596386996,
       "step": 6400
     },
     {
+      "epoch": 0.6972004719510887,
+      "grad_norm": 44.30250549316406,
+      "learning_rate": 0.00011693333333333332,
+      "loss": 0.6918,
       "step": 6500
     },
     {
+      "epoch": 0.7079266330580285,
+      "eval_loss": Infinity,
+      "eval_runtime": 106.5414,
+      "eval_samples_per_second": 36.615,
+      "eval_steps_per_second": 0.573,
+      "eval_wer": 0.4004250591701686,
       "step": 6600
     },
     {
+      "epoch": 0.7293789552719082,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.9171,
+      "eval_samples_per_second": 37.182,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.38653818287204755,
       "step": 6800
     },
     {
+      "epoch": 0.7508312774857878,
+      "grad_norm": 3.788344144821167,
+      "learning_rate": 0.00010029999999999998,
+      "loss": 0.6888,
       "step": 7000
     },
     {
+      "epoch": 0.7508312774857878,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.3057,
+      "eval_samples_per_second": 37.045,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.3785200212529585,
       "step": 7000
     },
     {
+      "epoch": 0.7722835996996675,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.7325,
+      "eval_samples_per_second": 37.247,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.3824083466164324,
       "step": 7200
     },
     {
+      "epoch": 0.7937359219135471,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.0488,
+      "eval_samples_per_second": 37.135,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.37426942955127274,
       "step": 7400
     },
     {
+      "epoch": 0.8044620830204869,
+      "grad_norm": 5.486635684967041,
+      "learning_rate": 8.363333333333332e-05,
+      "loss": 0.646,
       "step": 7500
     },
     {
+      "epoch": 0.8151882441274267,
+      "eval_loss": Infinity,
+      "eval_runtime": 106.6481,
+      "eval_samples_per_second": 36.578,
+      "eval_steps_per_second": 0.572,
+      "eval_wer": 0.3673139158576052,
       "step": 7600
     },
     {
+      "epoch": 0.8366405663413065,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.8533,
+      "eval_samples_per_second": 37.204,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.36668598753803794,
       "step": 7800
     },
     {
+      "epoch": 0.8580928885551861,
+      "grad_norm": 3.9184212684631348,
+      "learning_rate": 6.696666666666666e-05,
+      "loss": 0.6324,
       "step": 8000
     },
     {
+      "epoch": 0.8580928885551861,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.6572,
+      "eval_samples_per_second": 36.921,
+      "eval_steps_per_second": 0.577,
+      "eval_wer": 0.3661546635753272,
       "step": 8000
     },
     {
+      "epoch": 0.8795452107690658,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.6274,
+      "eval_samples_per_second": 37.285,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.36009274018258225,
       "step": 8200
     },
     {
+      "epoch": 0.9009975329829454,
+      "eval_loss": Infinity,
+      "eval_runtime": 104.9439,
+      "eval_samples_per_second": 37.172,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.35345119064869823,
       "step": 8400
     },
     {
+      "epoch": 0.9117236940898852,
+      "grad_norm": 3.5586395263671875,
+      "learning_rate": 5.0299999999999996e-05,
+      "loss": 0.6221,
       "step": 8500
     },
     {
+      "epoch": 0.9224498551968251,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.157,
+      "eval_samples_per_second": 37.097,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.35258175143698983,
       "step": 8600
     },
     {
+      "epoch": 0.9439021774107047,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.1867,
+      "eval_samples_per_second": 37.086,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.34874172825194416,
       "step": 8800
     },
     {
+      "epoch": 0.9653544996245844,
+      "grad_norm": 3.914166212081909,
+      "learning_rate": 3.363333333333333e-05,
+      "loss": 0.6215,
       "step": 9000
     },
     {
+      "epoch": 0.9653544996245844,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.9335,
+      "eval_samples_per_second": 36.825,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.34811379993237695,
       "step": 9000
     },
     {
+      "epoch": 0.986806821838464,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.4283,
+      "eval_samples_per_second": 37.001,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.3447084963531855,
       "step": 9200
     },
     {
+      "epoch": 1.0082591440523436,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.2731,
+      "eval_samples_per_second": 37.056,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.34103753079263877,
       "step": 9400
     },
     {
+      "epoch": 1.0189853051592834,
+      "grad_norm": 3.3699042797088623,
+      "learning_rate": 1.6966666666666665e-05,
+      "loss": 0.5603,
       "step": 9500
     },
     {
+      "epoch": 1.0297114662662232,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.4958,
+      "eval_samples_per_second": 36.978,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.34053035791914216,
       "step": 9600
     },
     {
+      "epoch": 1.051163788480103,
+      "eval_loss": Infinity,
+      "eval_runtime": 105.0872,
+      "eval_samples_per_second": 37.122,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.34120658841713764,
       "step": 9800
     },
     {
+      "epoch": 1.0726161106939827,
+      "grad_norm": 6.575745582580566,
+      "learning_rate": 3.333333333333333e-07,
+      "loss": 0.5284,
       "step": 10000
     },
     {
+      "epoch": 1.0726161106939827,
+      "eval_loss": Infinity,
+      "eval_runtime": 108.9867,
+      "eval_samples_per_second": 35.793,
+      "eval_steps_per_second": 0.56,
+      "eval_wer": 0.3401922426701444,
       "step": 10000
     },
     {
+      "epoch": 1.0726161106939827,
       "step": 10000,
+      "total_flos": 4.496412338111517e+18,
+      "train_loss": 0.8045109680175782,
+      "train_runtime": 7510.9356,
+      "train_samples_per_second": 5.326,
+      "train_steps_per_second": 1.331
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.496412338111517e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null