End of training

Browse files

Files changed (10) hide show

README.md +38 -38
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Dec02_09-45-57_DESKTOP-SKBE9FB/events.out.tfevents.1733154358.DESKTOP-SKBE9FB.18200.0 +3 -0
runs/Dec02_09-47-15_DESKTOP-SKBE9FB/events.out.tfevents.1733154436.DESKTOP-SKBE9FB.12904.0 +3 -0
runs/Dec02_09-47-15_DESKTOP-SKBE9FB/events.out.tfevents.1733154584.DESKTOP-SKBE9FB.12904.1 +3 -0
train_results.json +4 -4
trainer_state.json +193 -193
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.10869565217391304
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 113.8184
-- Accuracy: 0.1087
 ## Model description
@@ -66,41 +66,41 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 113.8184        | 0.1087   |
-| No log        | 2.0   | 7    | 113.8094        | 0.1087   |
-| 114.0867      | 2.86  | 10   | 113.7944        | 0.1087   |
-| 114.0867      | 4.0   | 14   | 113.7881        | 0.1087   |
-| 114.0867      | 4.86  | 17   | 113.7100        | 0.1087   |
-| 113.3425      | 6.0   | 21   | 113.5884        | 0.1087   |
-| 113.3425      | 6.86  | 24   | 113.4998        | 0.1087   |
-| 113.3425      | 8.0   | 28   | 113.0578        | 0.1087   |
-| 111.228       | 8.86  | 31   | 112.8053        | 0.1087   |
-| 111.228       | 10.0  | 35   | 112.5202        | 0.1087   |
-| 111.228       | 10.86 | 38   | 112.5811        | 0.1087   |
-| 114.9647      | 12.0  | 42   | 112.6090        | 0.1087   |
-| 114.9647      | 12.86 | 45   | 112.4973        | 0.1087   |
-| 114.9647      | 14.0  | 49   | 111.9761        | 0.1087   |
-| 110.7738      | 14.86 | 52   | 111.8117        | 0.1087   |
-| 110.7738      | 16.0  | 56   | 111.6589        | 0.1087   |
-| 110.7738      | 16.86 | 59   | 111.5367        | 0.1087   |
-| 111.0505      | 18.0  | 63   | 111.7016        | 0.1087   |
-| 111.0505      | 18.86 | 66   | 111.9068        | 0.1087   |
-| 111.4545      | 20.0  | 70   | 111.6203        | 0.1087   |
-| 111.4545      | 20.86 | 73   | 111.1266        | 0.1087   |
-| 111.4545      | 22.0  | 77   | 110.2879        | 0.1087   |
-| 111.2779      | 22.86 | 80   | 109.8523        | 0.1087   |
-| 111.2779      | 24.0  | 84   | 109.5283        | 0.1087   |
-| 111.2779      | 24.86 | 87   | 109.9590        | 0.1087   |
-| 110.5166      | 26.0  | 91   | 109.9752        | 0.1087   |
-| 110.5166      | 26.86 | 94   | 109.5435        | 0.1087   |
-| 110.5166      | 28.0  | 98   | 109.5712        | 0.1087   |
-| 108.66        | 28.86 | 101  | 108.8924        | 0.1087   |
-| 108.66        | 30.0  | 105  | 108.3990        | 0.1087   |
-| 108.66        | 30.86 | 108  | 108.7050        | 0.1087   |
-| 109.688       | 32.0  | 112  | 108.7237        | 0.1087   |
-| 109.688       | 32.86 | 115  | 109.0679        | 0.1087   |
-| 109.688       | 34.0  | 119  | 108.5750        | 0.1087   |
-| 109.4549      | 34.29 | 120  | 108.5167        | 0.1087   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.717391304347826
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8492
+- Accuracy: 0.7174
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.86  | 3    | 1.3859          | 0.3261   |
+| No log        | 2.0   | 7    | 1.3806          | 0.5217   |
+| 1.3829        | 2.86  | 10   | 1.3677          | 0.5870   |
+| 1.3829        | 4.0   | 14   | 1.3037          | 0.6739   |
+| 1.3829        | 4.86  | 17   | 1.2540          | 0.6522   |
+| 1.3074        | 6.0   | 21   | 1.1509          | 0.6522   |
+| 1.3074        | 6.86  | 24   | 1.0882          | 0.6739   |
+| 1.3074        | 8.0   | 28   | 1.0569          | 0.6522   |
+| 1.1437        | 8.86  | 31   | 1.0536          | 0.6304   |
+| 1.1437        | 10.0  | 35   | 0.9993          | 0.6522   |
+| 1.1437        | 10.86 | 38   | 0.9819          | 0.6739   |
+| 1.0439        | 12.0  | 42   | 0.9593          | 0.6957   |
+| 1.0439        | 12.86 | 45   | 0.9359          | 0.6304   |
+| 1.0439        | 14.0  | 49   | 0.9467          | 0.6522   |
+| 0.9813        | 14.86 | 52   | 0.9331          | 0.6522   |
+| 0.9813        | 16.0  | 56   | 0.9386          | 0.6522   |
+| 0.9813        | 16.86 | 59   | 0.9266          | 0.6739   |
+| 0.8763        | 18.0  | 63   | 0.8833          | 0.6957   |
+| 0.8763        | 18.86 | 66   | 0.8679          | 0.6739   |
+| 0.9187        | 20.0  | 70   | 0.8639          | 0.6957   |
+| 0.9187        | 20.86 | 73   | 0.8492          | 0.7174   |
+| 0.9187        | 22.0  | 77   | 0.8846          | 0.6957   |
+| 0.8067        | 22.86 | 80   | 0.9083          | 0.6522   |
+| 0.8067        | 24.0  | 84   | 0.9269          | 0.6522   |
+| 0.8067        | 24.86 | 87   | 0.8849          | 0.6739   |
+| 0.7248        | 26.0  | 91   | 0.8935          | 0.6522   |
+| 0.7248        | 26.86 | 94   | 0.8719          | 0.6957   |
+| 0.7248        | 28.0  | 98   | 0.8759          | 0.6739   |
+| 0.773         | 28.86 | 101  | 0.8887          | 0.6739   |
+| 0.773         | 30.0  | 105  | 0.9288          | 0.6522   |
+| 0.773         | 30.86 | 108  | 0.9041          | 0.6522   |
+| 0.7467        | 32.0  | 112  | 0.9017          | 0.6522   |
+| 0.7467        | 32.86 | 115  | 0.8767          | 0.6522   |
+| 0.7467        | 34.0  | 119  | 0.8993          | 0.6739   |
+| 0.7323        | 34.29 | 120  | 0.8946          | 0.6522   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.81844329833984,
-    "eval_runtime": 0.6186,
-    "eval_samples_per_second": 74.356,
-    "eval_steps_per_second": 4.849,
-    "train_loss": 111.37485249837239,
-    "train_runtime": 136.0598,
-    "train_samples_per_second": 62.62,
-    "train_steps_per_second": 0.882
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.717391304347826,
+    "eval_loss": 0.8492209315299988,
+    "eval_runtime": 0.6737,
+    "eval_samples_per_second": 68.284,
+    "eval_steps_per_second": 4.453,
+    "train_loss": 0.9531369884808858,
+    "train_runtime": 147.6547,
+    "train_samples_per_second": 57.702,
+    "train_steps_per_second": 0.813
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.81844329833984,
-    "eval_runtime": 0.6186,
-    "eval_samples_per_second": 74.356,
-    "eval_steps_per_second": 4.849
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.717391304347826,
+    "eval_loss": 0.8492209315299988,
+    "eval_runtime": 0.6737,
+    "eval_samples_per_second": 68.284,
+    "eval_steps_per_second": 4.453
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe65117317844ece5f5dc4f0f5845b05e9ebd35dc9b078531fa983038481075a
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e0359efe7b86e67f643b1723fbcc70a40720a77587d4a18776d051bb3516544
 size 12203648

runs/Dec02_09-45-57_DESKTOP-SKBE9FB/events.out.tfevents.1733154358.DESKTOP-SKBE9FB.18200.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65aadc5738ab0910aec6aaceb43516d9b0a2e9125824807f23e01cc393714165
+size 9280

runs/Dec02_09-47-15_DESKTOP-SKBE9FB/events.out.tfevents.1733154436.DESKTOP-SKBE9FB.12904.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:212b5c354dceec3f3f043057d55b3face875d385d60de2287fee840646b87326
+size 17834

runs/Dec02_09-47-15_DESKTOP-SKBE9FB/events.out.tfevents.1733154584.DESKTOP-SKBE9FB.12904.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:822ddd9c84b74ee9260222ea7d4e03ce6794ebe4d79bdb3487d0ecccd5738e70
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 111.37485249837239,
-    "train_runtime": 136.0598,
-    "train_samples_per_second": 62.62,
-    "train_steps_per_second": 0.882
 }

 {
     "epoch": 34.29,
+    "train_loss": 0.9531369884808858,
+    "train_runtime": 147.6547,
+    "train_samples_per_second": 57.702,
+    "train_steps_per_second": 0.813
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.10869565217391304,
-  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-3",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
@@ -10,399 +10,399 @@
   "log_history": [
     {
       "epoch": 0.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.81844329833984,
-      "eval_runtime": 0.9277,
-      "eval_samples_per_second": 49.584,
-      "eval_steps_per_second": 3.234,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.80943298339844,
-      "eval_runtime": 0.5649,
-      "eval_samples_per_second": 81.43,
-      "eval_steps_per_second": 5.311,
       "step": 7
     },
     {
       "epoch": 2.86,
       "learning_rate": 0.00025,
-      "loss": 114.0867,
       "step": 10
     },
     {
       "epoch": 2.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.79438018798828,
-      "eval_runtime": 0.6062,
-      "eval_samples_per_second": 75.888,
-      "eval_steps_per_second": 4.949,
       "step": 10
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.78809356689453,
-      "eval_runtime": 0.6076,
-      "eval_samples_per_second": 75.702,
-      "eval_steps_per_second": 4.937,
       "step": 14
     },
     {
       "epoch": 4.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.70995330810547,
-      "eval_runtime": 0.6162,
-      "eval_samples_per_second": 74.657,
-      "eval_steps_per_second": 4.869,
       "step": 17
     },
     {
       "epoch": 5.71,
       "learning_rate": 0.0002777777777777778,
-      "loss": 113.3425,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.58837890625,
-      "eval_runtime": 0.6537,
-      "eval_samples_per_second": 70.373,
-      "eval_steps_per_second": 4.59,
       "step": 21
     },
     {
       "epoch": 6.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.49983978271484,
-      "eval_runtime": 0.5761,
-      "eval_samples_per_second": 79.843,
-      "eval_steps_per_second": 5.207,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.05781555175781,
-      "eval_runtime": 2.1702,
-      "eval_samples_per_second": 21.196,
-      "eval_steps_per_second": 1.382,
       "step": 28
     },
     {
       "epoch": 8.57,
       "learning_rate": 0.00025,
-      "loss": 111.228,
       "step": 30
     },
     {
       "epoch": 8.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.80531311035156,
-      "eval_runtime": 0.5921,
-      "eval_samples_per_second": 77.685,
-      "eval_steps_per_second": 5.066,
       "step": 31
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.52015686035156,
-      "eval_runtime": 0.6021,
-      "eval_samples_per_second": 76.395,
-      "eval_steps_per_second": 4.982,
       "step": 35
     },
     {
       "epoch": 10.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.58113861083984,
-      "eval_runtime": 0.5977,
-      "eval_samples_per_second": 76.964,
-      "eval_steps_per_second": 5.019,
       "step": 38
     },
     {
       "epoch": 11.43,
       "learning_rate": 0.00022222222222222218,
-      "loss": 114.9647,
       "step": 40
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.60899353027344,
-      "eval_runtime": 0.5971,
-      "eval_samples_per_second": 77.035,
-      "eval_steps_per_second": 5.024,
       "step": 42
     },
     {
       "epoch": 12.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.49734497070312,
-      "eval_runtime": 0.5906,
-      "eval_samples_per_second": 77.882,
-      "eval_steps_per_second": 5.079,
       "step": 45
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.97610473632812,
-      "eval_runtime": 0.5781,
-      "eval_samples_per_second": 79.567,
-      "eval_steps_per_second": 5.189,
       "step": 49
     },
     {
       "epoch": 14.29,
       "learning_rate": 0.00019444444444444443,
-      "loss": 110.7738,
       "step": 50
     },
     {
       "epoch": 14.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.81171417236328,
-      "eval_runtime": 0.5761,
-      "eval_samples_per_second": 79.841,
-      "eval_steps_per_second": 5.207,
       "step": 52
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.65890502929688,
-      "eval_runtime": 0.5781,
-      "eval_samples_per_second": 79.567,
-      "eval_steps_per_second": 5.189,
       "step": 56
     },
     {
       "epoch": 16.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.53672790527344,
-      "eval_runtime": 0.5771,
-      "eval_samples_per_second": 79.703,
-      "eval_steps_per_second": 5.198,
       "step": 59
     },
     {
       "epoch": 17.14,
       "learning_rate": 0.00016666666666666666,
-      "loss": 111.0505,
       "step": 60
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.7016372680664,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.517,
-      "eval_steps_per_second": 4.925,
       "step": 63
     },
     {
       "epoch": 18.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.90676879882812,
-      "eval_runtime": 0.6357,
-      "eval_samples_per_second": 72.366,
-      "eval_steps_per_second": 4.72,
       "step": 66
     },
     {
       "epoch": 20.0,
       "learning_rate": 0.0001388888888888889,
-      "loss": 111.4545,
       "step": 70
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.62030792236328,
-      "eval_runtime": 0.6126,
-      "eval_samples_per_second": 75.084,
-      "eval_steps_per_second": 4.897,
       "step": 70
     },
     {
       "epoch": 20.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.12662506103516,
-      "eval_runtime": 0.6051,
-      "eval_samples_per_second": 76.016,
-      "eval_steps_per_second": 4.958,
       "step": 73
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 110.28787231445312,
-      "eval_runtime": 0.6352,
-      "eval_samples_per_second": 72.422,
-      "eval_steps_per_second": 4.723,
       "step": 77
     },
     {
       "epoch": 22.86,
       "learning_rate": 0.00011111111111111109,
-      "loss": 111.2779,
       "step": 80
     },
     {
       "epoch": 22.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.85228729248047,
-      "eval_runtime": 0.5951,
-      "eval_samples_per_second": 77.292,
-      "eval_steps_per_second": 5.041,
       "step": 80
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.52828979492188,
-      "eval_runtime": 0.5951,
-      "eval_samples_per_second": 77.292,
-      "eval_steps_per_second": 5.041,
       "step": 84
     },
     {
       "epoch": 24.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.9590072631836,
-      "eval_runtime": 0.5836,
-      "eval_samples_per_second": 78.816,
-      "eval_steps_per_second": 5.14,
       "step": 87
     },
     {
       "epoch": 25.71,
       "learning_rate": 8.333333333333333e-05,
-      "loss": 110.5166,
       "step": 90
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.97518157958984,
-      "eval_runtime": 0.6056,
-      "eval_samples_per_second": 75.952,
-      "eval_steps_per_second": 4.953,
       "step": 91
     },
     {
       "epoch": 26.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.54348754882812,
-      "eval_runtime": 0.6151,
-      "eval_samples_per_second": 74.78,
-      "eval_steps_per_second": 4.877,
       "step": 94
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.57117462158203,
-      "eval_runtime": 0.6156,
-      "eval_samples_per_second": 74.718,
-      "eval_steps_per_second": 4.873,
       "step": 98
     },
     {
       "epoch": 28.57,
       "learning_rate": 5.5555555555555545e-05,
-      "loss": 108.66,
       "step": 100
     },
     {
       "epoch": 28.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.89238739013672,
-      "eval_runtime": 0.6327,
-      "eval_samples_per_second": 72.71,
-      "eval_steps_per_second": 4.742,
       "step": 101
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.39895629882812,
-      "eval_runtime": 0.6281,
-      "eval_samples_per_second": 73.232,
-      "eval_steps_per_second": 4.776,
       "step": 105
     },
     {
       "epoch": 30.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.70501708984375,
-      "eval_runtime": 0.6417,
-      "eval_samples_per_second": 71.69,
-      "eval_steps_per_second": 4.675,
       "step": 108
     },
     {
       "epoch": 31.43,
       "learning_rate": 2.7777777777777772e-05,
-      "loss": 109.688,
       "step": 110
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.7237319946289,
-      "eval_runtime": 0.6112,
-      "eval_samples_per_second": 75.267,
-      "eval_steps_per_second": 4.909,
       "step": 112
     },
     {
       "epoch": 32.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.0678939819336,
-      "eval_runtime": 0.6072,
-      "eval_samples_per_second": 75.763,
-      "eval_steps_per_second": 4.941,
       "step": 115
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.574951171875,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.516,
-      "eval_steps_per_second": 4.925,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 109.4549,
       "step": 120
     },
     {
       "epoch": 34.29,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.5167465209961,
-      "eval_runtime": 0.6016,
-      "eval_samples_per_second": 76.457,
-      "eval_steps_per_second": 4.986,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 111.37485249837239,
-      "train_runtime": 136.0598,
-      "train_samples_per_second": 62.62,
-      "train_steps_per_second": 0.882
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.717391304347826,
+  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-73",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
   "log_history": [
     {
       "epoch": 0.86,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.3858932256698608,
+      "eval_runtime": 0.8132,
+      "eval_samples_per_second": 56.568,
+      "eval_steps_per_second": 3.689,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5217391304347826,
+      "eval_loss": 1.380622148513794,
+      "eval_runtime": 0.6061,
+      "eval_samples_per_second": 75.891,
+      "eval_steps_per_second": 4.949,
       "step": 7
     },
     {
       "epoch": 2.86,
       "learning_rate": 0.00025,
+      "loss": 1.3829,
       "step": 10
     },
     {
       "epoch": 2.86,
+      "eval_accuracy": 0.5869565217391305,
+      "eval_loss": 1.3677465915679932,
+      "eval_runtime": 0.6166,
+      "eval_samples_per_second": 74.597,
+      "eval_steps_per_second": 4.865,
       "step": 10
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 1.3037457466125488,
+      "eval_runtime": 0.7182,
+      "eval_samples_per_second": 64.052,
+      "eval_steps_per_second": 4.177,
       "step": 14
     },
     {
       "epoch": 4.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 1.2539862394332886,
+      "eval_runtime": 0.7222,
+      "eval_samples_per_second": 63.698,
+      "eval_steps_per_second": 4.154,
       "step": 17
     },
     {
       "epoch": 5.71,
       "learning_rate": 0.0002777777777777778,
+      "loss": 1.3074,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 1.15088951587677,
+      "eval_runtime": 0.6441,
+      "eval_samples_per_second": 71.413,
+      "eval_steps_per_second": 4.657,
       "step": 21
     },
     {
       "epoch": 6.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 1.0881719589233398,
+      "eval_runtime": 0.6236,
+      "eval_samples_per_second": 73.76,
+      "eval_steps_per_second": 4.81,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 1.056923270225525,
+      "eval_runtime": 1.0408,
+      "eval_samples_per_second": 44.199,
+      "eval_steps_per_second": 2.883,
       "step": 28
     },
     {
       "epoch": 8.57,
       "learning_rate": 0.00025,
+      "loss": 1.1437,
       "step": 30
     },
     {
       "epoch": 8.86,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 1.053645133972168,
+      "eval_runtime": 0.8772,
+      "eval_samples_per_second": 52.439,
+      "eval_steps_per_second": 3.42,
       "step": 31
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9993222951889038,
+      "eval_runtime": 1.0778,
+      "eval_samples_per_second": 42.681,
+      "eval_steps_per_second": 2.784,
       "step": 35
     },
     {
       "epoch": 10.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9819307923316956,
+      "eval_runtime": 0.6542,
+      "eval_samples_per_second": 70.32,
+      "eval_steps_per_second": 4.586,
       "step": 38
     },
     {
       "epoch": 11.43,
       "learning_rate": 0.00022222222222222218,
+      "loss": 1.0439,
       "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.9593490958213806,
+      "eval_runtime": 1.1103,
+      "eval_samples_per_second": 41.431,
+      "eval_steps_per_second": 2.702,
       "step": 42
     },
     {
       "epoch": 12.86,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 0.9358569979667664,
+      "eval_runtime": 0.7992,
+      "eval_samples_per_second": 57.558,
+      "eval_steps_per_second": 3.754,
       "step": 45
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9467045068740845,
+      "eval_runtime": 1.2303,
+      "eval_samples_per_second": 37.39,
+      "eval_steps_per_second": 2.438,
       "step": 49
     },
     {
       "epoch": 14.29,
       "learning_rate": 0.00019444444444444443,
+      "loss": 0.9813,
       "step": 50
     },
     {
       "epoch": 14.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9330639243125916,
+      "eval_runtime": 0.9252,
+      "eval_samples_per_second": 49.718,
+      "eval_steps_per_second": 3.242,
       "step": 52
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9386307001113892,
+      "eval_runtime": 0.6156,
+      "eval_samples_per_second": 74.718,
+      "eval_steps_per_second": 4.873,
       "step": 56
     },
     {
       "epoch": 16.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9266453385353088,
+      "eval_runtime": 0.6812,
+      "eval_samples_per_second": 67.533,
+      "eval_steps_per_second": 4.404,
       "step": 59
     },
     {
       "epoch": 17.14,
       "learning_rate": 0.00016666666666666666,
+      "loss": 0.8763,
       "step": 60
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8833379149436951,
+      "eval_runtime": 0.6407,
+      "eval_samples_per_second": 71.8,
+      "eval_steps_per_second": 4.683,
       "step": 63
     },
     {
       "epoch": 18.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8679067492485046,
+      "eval_runtime": 0.6221,
+      "eval_samples_per_second": 73.938,
+      "eval_steps_per_second": 4.822,
       "step": 66
     },
     {
       "epoch": 20.0,
       "learning_rate": 0.0001388888888888889,
+      "loss": 0.9187,
       "step": 70
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8639189600944519,
+      "eval_runtime": 0.6146,
+      "eval_samples_per_second": 74.84,
+      "eval_steps_per_second": 4.881,
       "step": 70
     },
     {
       "epoch": 20.86,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.8492209315299988,
+      "eval_runtime": 0.6021,
+      "eval_samples_per_second": 76.395,
+      "eval_steps_per_second": 4.982,
       "step": 73
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8846498727798462,
+      "eval_runtime": 0.6817,
+      "eval_samples_per_second": 67.482,
+      "eval_steps_per_second": 4.401,
       "step": 77
     },
     {
       "epoch": 22.86,
       "learning_rate": 0.00011111111111111109,
+      "loss": 0.8067,
       "step": 80
     },
     {
       "epoch": 22.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9083214402198792,
+      "eval_runtime": 0.5901,
+      "eval_samples_per_second": 77.947,
+      "eval_steps_per_second": 5.083,
       "step": 80
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9269394278526306,
+      "eval_runtime": 0.5941,
+      "eval_samples_per_second": 77.424,
+      "eval_steps_per_second": 5.049,
       "step": 84
     },
     {
       "epoch": 24.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8849068284034729,
+      "eval_runtime": 0.5811,
+      "eval_samples_per_second": 79.154,
+      "eval_steps_per_second": 5.162,
       "step": 87
     },
     {
       "epoch": 25.71,
       "learning_rate": 8.333333333333333e-05,
+      "loss": 0.7248,
       "step": 90
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.8935391902923584,
+      "eval_runtime": 0.5891,
+      "eval_samples_per_second": 78.081,
+      "eval_steps_per_second": 5.092,
       "step": 91
     },
     {
       "epoch": 26.86,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8718845248222351,
+      "eval_runtime": 0.5891,
+      "eval_samples_per_second": 78.081,
+      "eval_steps_per_second": 5.092,
       "step": 94
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8758830428123474,
+      "eval_runtime": 0.6101,
+      "eval_samples_per_second": 75.393,
+      "eval_steps_per_second": 4.917,
       "step": 98
     },
     {
       "epoch": 28.57,
       "learning_rate": 5.5555555555555545e-05,
+      "loss": 0.773,
       "step": 100
     },
     {
       "epoch": 28.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8886707425117493,
+      "eval_runtime": 0.5751,
+      "eval_samples_per_second": 79.98,
+      "eval_steps_per_second": 5.216,
       "step": 101
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9288129210472107,
+      "eval_runtime": 0.5851,
+      "eval_samples_per_second": 78.615,
+      "eval_steps_per_second": 5.127,
       "step": 105
     },
     {
       "epoch": 30.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9040660858154297,
+      "eval_runtime": 0.5871,
+      "eval_samples_per_second": 78.345,
+      "eval_steps_per_second": 5.109,
       "step": 108
     },
     {
       "epoch": 31.43,
       "learning_rate": 2.7777777777777772e-05,
+      "loss": 0.7467,
       "step": 110
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9017118215560913,
+      "eval_runtime": 0.5852,
+      "eval_samples_per_second": 78.612,
+      "eval_steps_per_second": 5.127,
       "step": 112
     },
     {
       "epoch": 32.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.8766883611679077,
+      "eval_runtime": 0.5811,
+      "eval_samples_per_second": 79.156,
+      "eval_steps_per_second": 5.162,
       "step": 115
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8992951512336731,
+      "eval_runtime": 0.5791,
+      "eval_samples_per_second": 79.427,
+      "eval_steps_per_second": 5.18,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 0.7323,
       "step": 120
     },
     {
       "epoch": 34.29,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.8945603370666504,
+      "eval_runtime": 0.5791,
+      "eval_samples_per_second": 79.427,
+      "eval_steps_per_second": 5.18,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 0.9531369884808858,
+      "train_runtime": 147.6547,
+      "train_samples_per_second": 57.702,
+      "train_steps_per_second": 0.813
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb32682ac9637aabf7bfeee556e5232c7b3af6054a8291210f22ee42fe3540cf
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2e9b757d1b8c4a487ce9b5ba75d5e825afd3a6e4d73ad2d6c3dd161720724df
 size 4728