End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +9 -9
eval_results.json +5 -5
runs/Dec02_13-56-15_DESKTOP-SKBE9FB/events.out.tfevents.1733169520.DESKTOP-SKBE9FB.11004.1 +3 -0
train_results.json +4 -4
trainer_state.json +203 -203

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.6956521739130435
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8074
-- Accuracy: 0.6957
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7608695652173914
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7654
+- Accuracy: 0.7609
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.5434782608695652,
-    "eval_loss": 1.3591431379318237,
-    "eval_runtime": 0.9977,
-    "eval_samples_per_second": 46.105,
-    "eval_steps_per_second": 3.007,
-    "train_loss": 1.2247031291325887,
-    "train_runtime": 132.0853,
-    "train_samples_per_second": 64.504,
-    "train_steps_per_second": 0.909
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.7608695652173914,
+    "eval_loss": 0.7653754949569702,
+    "eval_runtime": 0.8787,
+    "eval_samples_per_second": 52.35,
+    "eval_steps_per_second": 3.414,
+    "train_loss": 0.9870913426081339,
+    "train_runtime": 135.9591,
+    "train_samples_per_second": 62.666,
+    "train_steps_per_second": 0.883
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.5434782608695652,
-    "eval_loss": 1.3591431379318237,
-    "eval_runtime": 0.9977,
-    "eval_samples_per_second": 46.105,
-    "eval_steps_per_second": 3.007
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.7608695652173914,
+    "eval_loss": 0.7653754949569702,
+    "eval_runtime": 0.8787,
+    "eval_samples_per_second": 52.35,
+    "eval_steps_per_second": 3.414
 }

runs/Dec02_13-56-15_DESKTOP-SKBE9FB/events.out.tfevents.1733169520.DESKTOP-SKBE9FB.11004.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bad3deebdc874db9f2467a02e867ce28b56c7531e869e93e9e4bc7b18b8b18b
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 1.2247031291325887,
-    "train_runtime": 132.0853,
-    "train_samples_per_second": 64.504,
-    "train_steps_per_second": 0.909
 }

 {
     "epoch": 34.29,
+    "train_loss": 0.9870913426081339,
+    "train_runtime": 135.9591,
+    "train_samples_per_second": 62.666,
+    "train_steps_per_second": 0.883
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.5434782608695652,
-  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-3",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
@@ -11,398 +11,398 @@
     {
       "epoch": 0.86,
       "eval_accuracy": 0.5434782608695652,
-      "eval_loss": 1.3591431379318237,
-      "eval_runtime": 0.6507,
-      "eval_samples_per_second": 70.698,
-      "eval_steps_per_second": 4.611,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5434782608695652,
-      "eval_loss": 1.231246829032898,
-      "eval_runtime": 0.6722,
-      "eval_samples_per_second": 68.437,
-      "eval_steps_per_second": 4.463,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 0.006666666666666667,
-      "loss": 1.2973,
       "step": 10
     },
     {
       "epoch": 2.86,
-      "eval_accuracy": 0.391304347826087,
-      "eval_loss": 2.0533361434936523,
-      "eval_runtime": 0.5966,
-      "eval_samples_per_second": 77.098,
-      "eval_steps_per_second": 5.028,
       "step": 10
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.13043478260869565,
-      "eval_loss": 3.3852343559265137,
-      "eval_runtime": 0.6126,
-      "eval_samples_per_second": 75.084,
-      "eval_steps_per_second": 4.897,
       "step": 14
     },
     {
       "epoch": 4.86,
-      "eval_accuracy": 0.2826086956521739,
-      "eval_loss": 5.402902126312256,
-      "eval_runtime": 0.6162,
-      "eval_samples_per_second": 74.656,
-      "eval_steps_per_second": 4.869,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.007407407407407408,
-      "loss": 1.3932,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.15217391304347827,
-      "eval_loss": 6.73091983795166,
-      "eval_runtime": 0.6251,
-      "eval_samples_per_second": 73.584,
-      "eval_steps_per_second": 4.799,
       "step": 21
     },
     {
       "epoch": 6.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1893627643585205,
-      "eval_runtime": 0.5871,
-      "eval_samples_per_second": 78.345,
-      "eval_steps_per_second": 5.109,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.3668298721313477,
-      "eval_runtime": 0.8242,
-      "eval_samples_per_second": 55.811,
-      "eval_steps_per_second": 3.64,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.006666666666666667,
-      "loss": 1.224,
       "step": 30
     },
     {
       "epoch": 8.86,
-      "eval_accuracy": 0.30434782608695654,
-      "eval_loss": 1.4738078117370605,
-      "eval_runtime": 0.5976,
-      "eval_samples_per_second": 76.969,
-      "eval_steps_per_second": 5.02,
       "step": 31
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.4782608695652174,
-      "eval_loss": 3.30267333984375,
-      "eval_runtime": 0.6467,
-      "eval_samples_per_second": 71.136,
-      "eval_steps_per_second": 4.639,
       "step": 35
     },
     {
       "epoch": 10.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.5451834201812744,
-      "eval_runtime": 0.5736,
-      "eval_samples_per_second": 80.19,
-      "eval_steps_per_second": 5.23,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.005925925925925926,
-      "loss": 1.1773,
       "step": 40
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 2.5105574131011963,
-      "eval_runtime": 0.6352,
-      "eval_samples_per_second": 72.423,
-      "eval_steps_per_second": 4.723,
       "step": 42
     },
     {
       "epoch": 12.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 2.3560242652893066,
-      "eval_runtime": 0.6231,
-      "eval_samples_per_second": 73.82,
-      "eval_steps_per_second": 4.814,
       "step": 45
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.5,
-      "eval_loss": 1.3445404767990112,
-      "eval_runtime": 0.6242,
-      "eval_samples_per_second": 73.699,
-      "eval_steps_per_second": 4.806,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 0.005185185185185185,
-      "loss": 1.2552,
       "step": 50
     },
     {
       "epoch": 14.86,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.264084815979004,
-      "eval_runtime": 0.6312,
-      "eval_samples_per_second": 72.882,
-      "eval_steps_per_second": 4.753,
       "step": 52
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.41304347826086957,
-      "eval_loss": 1.2809749841690063,
-      "eval_runtime": 0.6291,
-      "eval_samples_per_second": 73.116,
-      "eval_steps_per_second": 4.768,
       "step": 56
     },
     {
       "epoch": 16.86,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.2486095428466797,
-      "eval_runtime": 0.6246,
-      "eval_samples_per_second": 73.641,
-      "eval_steps_per_second": 4.803,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 0.0044444444444444444,
-      "loss": 1.1857,
       "step": 60
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.3768922090530396,
-      "eval_runtime": 0.6182,
-      "eval_samples_per_second": 74.415,
-      "eval_steps_per_second": 4.853,
       "step": 63
     },
     {
       "epoch": 18.86,
-      "eval_accuracy": 0.391304347826087,
-      "eval_loss": 1.3311198949813843,
-      "eval_runtime": 0.5861,
-      "eval_samples_per_second": 78.481,
-      "eval_steps_per_second": 5.118,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.003703703703703704,
-      "loss": 1.2054,
       "step": 70
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.30434782608695654,
-      "eval_loss": 1.3728384971618652,
-      "eval_runtime": 0.6246,
-      "eval_samples_per_second": 73.641,
-      "eval_steps_per_second": 4.803,
       "step": 70
     },
     {
       "epoch": 20.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2437033653259277,
-      "eval_runtime": 0.6181,
-      "eval_samples_per_second": 74.417,
-      "eval_steps_per_second": 4.853,
       "step": 73
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.41304347826086957,
-      "eval_loss": 1.2751320600509644,
-      "eval_runtime": 0.6296,
-      "eval_samples_per_second": 73.057,
-      "eval_steps_per_second": 4.765,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 0.002962962962962963,
-      "loss": 1.2037,
       "step": 80
     },
     {
       "epoch": 22.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2529469728469849,
-      "eval_runtime": 0.6047,
-      "eval_samples_per_second": 76.076,
-      "eval_steps_per_second": 4.961,
       "step": 80
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2354108095169067,
-      "eval_runtime": 0.6081,
-      "eval_samples_per_second": 75.641,
-      "eval_steps_per_second": 4.933,
       "step": 84
     },
     {
       "epoch": 24.86,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.23885977268219,
-      "eval_runtime": 0.6132,
-      "eval_samples_per_second": 75.022,
-      "eval_steps_per_second": 4.893,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 0.0022222222222222222,
-      "loss": 1.1888,
       "step": 90
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.2455952167510986,
-      "eval_runtime": 0.6196,
-      "eval_samples_per_second": 74.236,
-      "eval_steps_per_second": 4.841,
       "step": 91
     },
     {
       "epoch": 26.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2312220335006714,
-      "eval_runtime": 0.5921,
-      "eval_samples_per_second": 77.685,
-      "eval_steps_per_second": 5.066,
       "step": 94
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2452948093414307,
-      "eval_runtime": 0.6407,
-      "eval_samples_per_second": 71.802,
-      "eval_steps_per_second": 4.683,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 0.0014814814814814814,
-      "loss": 1.1872,
       "step": 100
     },
     {
       "epoch": 28.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2506513595581055,
-      "eval_runtime": 0.6071,
-      "eval_samples_per_second": 75.766,
-      "eval_steps_per_second": 4.941,
       "step": 101
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.41304347826086957,
-      "eval_loss": 1.2598766088485718,
-      "eval_runtime": 0.6437,
-      "eval_samples_per_second": 71.467,
-      "eval_steps_per_second": 4.661,
       "step": 105
     },
     {
       "epoch": 30.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2493034601211548,
-      "eval_runtime": 0.6182,
-      "eval_samples_per_second": 74.415,
-      "eval_steps_per_second": 4.853,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 0.0007407407407407407,
-      "loss": 1.1796,
       "step": 110
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2410696744918823,
-      "eval_runtime": 0.6317,
-      "eval_samples_per_second": 72.825,
-      "eval_steps_per_second": 4.749,
       "step": 112
     },
     {
       "epoch": 32.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2361904382705688,
-      "eval_runtime": 0.5841,
-      "eval_samples_per_second": 78.749,
-      "eval_steps_per_second": 5.136,
       "step": 115
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2300723791122437,
-      "eval_runtime": 0.8292,
-      "eval_samples_per_second": 55.475,
-      "eval_steps_per_second": 3.618,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 1.199,
       "step": 120
     },
     {
       "epoch": 34.29,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2346495389938354,
-      "eval_runtime": 0.6237,
-      "eval_samples_per_second": 73.759,
-      "eval_steps_per_second": 4.81,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 1.2247031291325887,
-      "train_runtime": 132.0853,
-      "train_samples_per_second": 64.504,
-      "train_steps_per_second": 0.909
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.7608695652173914,
+  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-98",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
     {
       "epoch": 0.86,
       "eval_accuracy": 0.5434782608695652,
+      "eval_loss": 1.3706265687942505,
+      "eval_runtime": 0.7927,
+      "eval_samples_per_second": 58.03,
+      "eval_steps_per_second": 3.785,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 1.1672464609146118,
+      "eval_runtime": 0.7267,
+      "eval_samples_per_second": 63.3,
+      "eval_steps_per_second": 4.128,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 0.004166666666666667,
+      "loss": 1.2937,
       "step": 10
     },
     {
       "epoch": 2.86,
+      "eval_accuracy": 0.6086956521739131,
+      "eval_loss": 1.2248375415802002,
+      "eval_runtime": 0.6077,
+      "eval_samples_per_second": 75.7,
+      "eval_steps_per_second": 4.937,
       "step": 10
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.34782608695652173,
+      "eval_loss": 2.698575973510742,
+      "eval_runtime": 0.6071,
+      "eval_samples_per_second": 75.764,
+      "eval_steps_per_second": 4.941,
       "step": 14
     },
     {
       "epoch": 4.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 2.600794792175293,
+      "eval_runtime": 0.6206,
+      "eval_samples_per_second": 74.116,
+      "eval_steps_per_second": 4.834,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 0.004629629629629629,
+      "loss": 1.2355,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.41304347826086957,
+      "eval_loss": 1.8899880647659302,
+      "eval_runtime": 0.6442,
+      "eval_samples_per_second": 71.411,
+      "eval_steps_per_second": 4.657,
       "step": 21
     },
     {
       "epoch": 6.86,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.595796823501587,
+      "eval_runtime": 0.6131,
+      "eval_samples_per_second": 75.024,
+      "eval_steps_per_second": 4.893,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5652173913043478,
+      "eval_loss": 1.3846951723098755,
+      "eval_runtime": 0.8307,
+      "eval_samples_per_second": 55.373,
+      "eval_steps_per_second": 3.611,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 0.004166666666666667,
+      "loss": 1.1548,
       "step": 30
     },
     {
       "epoch": 8.86,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.8761585354804993,
+      "eval_runtime": 0.6322,
+      "eval_samples_per_second": 72.767,
+      "eval_steps_per_second": 4.746,
       "step": 31
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.5434782608695652,
+      "eval_loss": 1.0870667695999146,
+      "eval_runtime": 0.6561,
+      "eval_samples_per_second": 70.106,
+      "eval_steps_per_second": 4.572,
       "step": 35
     },
     {
       "epoch": 10.86,
+      "eval_accuracy": 0.5434782608695652,
+      "eval_loss": 0.9779139757156372,
+      "eval_runtime": 0.5857,
+      "eval_samples_per_second": 78.544,
+      "eval_steps_per_second": 5.122,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 0.0037037037037037034,
+      "loss": 1.0561,
       "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.5434782608695652,
+      "eval_loss": 1.2454442977905273,
+      "eval_runtime": 0.6291,
+      "eval_samples_per_second": 73.116,
+      "eval_steps_per_second": 4.768,
       "step": 42
     },
     {
       "epoch": 12.86,
+      "eval_accuracy": 0.5652173913043478,
+      "eval_loss": 1.227651834487915,
+      "eval_runtime": 0.6021,
+      "eval_samples_per_second": 76.395,
+      "eval_steps_per_second": 4.982,
       "step": 45
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.6086956521739131,
+      "eval_loss": 0.9526649713516235,
+      "eval_runtime": 0.6019,
+      "eval_samples_per_second": 76.422,
+      "eval_steps_per_second": 4.984,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 0.0032407407407407406,
+      "loss": 1.0546,
       "step": 50
     },
     {
       "epoch": 14.86,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 0.8797388672828674,
+      "eval_runtime": 0.6531,
+      "eval_samples_per_second": 70.428,
+      "eval_steps_per_second": 4.593,
       "step": 52
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 0.9479212760925293,
+      "eval_runtime": 0.5991,
+      "eval_samples_per_second": 76.776,
+      "eval_steps_per_second": 5.007,
       "step": 56
     },
     {
       "epoch": 16.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.869612991809845,
+      "eval_runtime": 0.7437,
+      "eval_samples_per_second": 61.854,
+      "eval_steps_per_second": 4.034,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 0.002777777777777778,
+      "loss": 0.9493,
       "step": 60
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9347758293151855,
+      "eval_runtime": 0.6096,
+      "eval_samples_per_second": 75.454,
+      "eval_steps_per_second": 4.921,
       "step": 63
     },
     {
       "epoch": 18.86,
+      "eval_accuracy": 0.5434782608695652,
+      "eval_loss": 0.9889930486679077,
+      "eval_runtime": 0.6462,
+      "eval_samples_per_second": 71.19,
+      "eval_steps_per_second": 4.643,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.0023148148148148147,
+      "loss": 0.9354,
       "step": 70
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.5869565217391305,
+      "eval_loss": 0.9073047041893005,
+      "eval_runtime": 0.6136,
+      "eval_samples_per_second": 74.962,
+      "eval_steps_per_second": 4.889,
       "step": 70
     },
     {
       "epoch": 20.86,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 0.8763116598129272,
+      "eval_runtime": 0.6322,
+      "eval_samples_per_second": 72.766,
+      "eval_steps_per_second": 4.746,
       "step": 73
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9592300653457642,
+      "eval_runtime": 0.6382,
+      "eval_samples_per_second": 72.082,
+      "eval_steps_per_second": 4.701,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 0.0018518518518518517,
+      "loss": 0.8791,
       "step": 80
     },
     {
       "epoch": 22.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.8940117955207825,
+      "eval_runtime": 0.7087,
+      "eval_samples_per_second": 64.911,
+      "eval_steps_per_second": 4.233,
       "step": 80
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8165251016616821,
+      "eval_runtime": 0.6012,
+      "eval_samples_per_second": 76.52,
+      "eval_steps_per_second": 4.99,
       "step": 84
     },
     {
       "epoch": 24.86,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8249245285987854,
+      "eval_runtime": 0.6311,
+      "eval_samples_per_second": 72.884,
+      "eval_steps_per_second": 4.753,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 0.001388888888888889,
+      "loss": 0.8017,
       "step": 90
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8946475386619568,
+      "eval_runtime": 0.7282,
+      "eval_samples_per_second": 63.173,
+      "eval_steps_per_second": 4.12,
       "step": 91
     },
     {
       "epoch": 26.86,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8210282325744629,
+      "eval_runtime": 0.6431,
+      "eval_samples_per_second": 71.524,
+      "eval_steps_per_second": 4.665,
       "step": 94
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7653754949569702,
+      "eval_runtime": 0.9337,
+      "eval_samples_per_second": 49.265,
+      "eval_steps_per_second": 3.213,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 0.0009259259259259259,
+      "loss": 0.8532,
       "step": 100
     },
     {
       "epoch": 28.86,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7491888999938965,
+      "eval_runtime": 0.6161,
+      "eval_samples_per_second": 74.659,
+      "eval_steps_per_second": 4.869,
       "step": 101
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.7725396156311035,
+      "eval_runtime": 0.6542,
+      "eval_samples_per_second": 70.319,
+      "eval_steps_per_second": 4.586,
       "step": 105
     },
     {
       "epoch": 30.86,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.7931932210922241,
+      "eval_runtime": 0.6467,
+      "eval_samples_per_second": 71.135,
+      "eval_steps_per_second": 4.639,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 0.0004629629629629629,
+      "loss": 0.8205,
       "step": 110
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8129280209541321,
+      "eval_runtime": 0.6256,
+      "eval_samples_per_second": 73.524,
+      "eval_steps_per_second": 4.795,
       "step": 112
     },
     {
       "epoch": 32.86,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8089176416397095,
+      "eval_runtime": 0.6011,
+      "eval_samples_per_second": 76.522,
+      "eval_steps_per_second": 4.991,
       "step": 115
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8150961399078369,
+      "eval_runtime": 0.8342,
+      "eval_samples_per_second": 55.142,
+      "eval_steps_per_second": 3.596,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 0.8112,
       "step": 120
     },
     {
       "epoch": 34.29,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8074415326118469,
+      "eval_runtime": 0.6487,
+      "eval_samples_per_second": 70.916,
+      "eval_steps_per_second": 4.625,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 0.9870913426081339,
+      "train_runtime": 135.9591,
+      "train_samples_per_second": 62.666,
+      "train_steps_per_second": 0.883
     }
   ],
   "logging_steps": 10,