End of training

Browse files

Files changed (9) hide show

README.md +36 -36
all_results.json +8 -8
eval_results.json +4 -4
model.safetensors +1 -1
runs/Dec01_10-45-48_DESKTOP-SKBE9FB/events.out.tfevents.1733071549.DESKTOP-SKBE9FB.15824.0 +3 -0
runs/Dec01_10-45-48_DESKTOP-SKBE9FB/events.out.tfevents.1733071679.DESKTOP-SKBE9FB.15824.1 +3 -0
train_results.json +4 -4
trainer_state.json +156 -156
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -31,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 113.9563
 - Accuracy: 0.1087
 ## Model description
@@ -66,41 +66,41 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 113.9563        | 0.1087   |
-| No log        | 2.0   | 7    | 113.9524        | 0.1087   |
-| 114.2271      | 2.86  | 10   | 113.9454        | 0.1087   |
-| 114.2271      | 4.0   | 14   | 113.9389        | 0.1087   |
-| 114.2271      | 4.86  | 17   | 113.9226        | 0.1087   |
-| 113.5566      | 6.0   | 21   | 113.8982        | 0.1087   |
-| 113.5566      | 6.86  | 24   | 113.8425        | 0.1087   |
-| 113.5566      | 8.0   | 28   | 113.7478        | 0.1087   |
-| 111.6907      | 8.86  | 31   | 113.6538        | 0.1087   |
-| 111.6907      | 10.0  | 35   | 113.5589        | 0.1087   |
-| 111.6907      | 10.86 | 38   | 113.5002        | 0.1087   |
-| 115.67        | 12.0  | 42   | 113.4496        | 0.1087   |
-| 115.67        | 12.86 | 45   | 113.3752        | 0.1087   |
-| 115.67        | 14.0  | 49   | 113.2129        | 0.1087   |
-| 111.8054      | 14.86 | 52   | 113.0828        | 0.1087   |
-| 111.8054      | 16.0  | 56   | 112.8805        | 0.1087   |
-| 111.8054      | 16.86 | 59   | 112.9013        | 0.1087   |
-| 112.3831      | 18.0  | 63   | 112.8123        | 0.1087   |
-| 112.3831      | 18.86 | 66   | 113.0190        | 0.1087   |
-| 113.1097      | 20.0  | 70   | 113.2929        | 0.1087   |
-| 113.1097      | 20.86 | 73   | 112.8861        | 0.1087   |
-| 113.1097      | 22.0  | 77   | 112.7154        | 0.1087   |
-| 113.3674      | 22.86 | 80   | 112.6943        | 0.1087   |
-| 113.3674      | 24.0  | 84   | 112.3937        | 0.1087   |
-| 113.3674      | 24.86 | 87   | 112.3862        | 0.1087   |
-| 113.1472      | 26.0  | 91   | 112.2693        | 0.1087   |
-| 113.1472      | 26.86 | 94   | 112.3107        | 0.1087   |
-| 113.1472      | 28.0  | 98   | 112.4216        | 0.1087   |
-| 111.3252      | 28.86 | 101  | 112.3318        | 0.1087   |
-| 111.3252      | 30.0  | 105  | 112.3517        | 0.1087   |
-| 111.3252      | 30.86 | 108  | 112.4213        | 0.1087   |
-| 112.827       | 32.0  | 112  | 112.4838        | 0.1087   |
-| 112.827       | 32.86 | 115  | 112.4490        | 0.1087   |
-| 112.827       | 34.0  | 119  | 112.1525        | 0.1087   |
-| 112.5631      | 34.29 | 120  | 112.1956        | 0.1087   |
 ### Framework versions

 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 113.7364
 - Accuracy: 0.1087
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.86  | 3    | 113.7364        | 0.1087   |
+| No log        | 2.0   | 7    | 113.7326        | 0.1087   |
+| 114.0068      | 2.86  | 10   | 113.7256        | 0.1087   |
+| 114.0068      | 4.0   | 14   | 113.7186        | 0.1087   |
+| 114.0068      | 4.86  | 17   | 113.7029        | 0.1087   |
+| 113.3375      | 6.0   | 21   | 113.6791        | 0.1087   |
+| 113.3375      | 6.86  | 24   | 113.6215        | 0.1087   |
+| 113.3375      | 8.0   | 28   | 113.5252        | 0.1087   |
+| 111.4746      | 8.86  | 31   | 113.4319        | 0.1087   |
+| 111.4746      | 10.0  | 35   | 113.3363        | 0.1087   |
+| 111.4746      | 10.86 | 38   | 113.2650        | 0.1087   |
+| 115.4431      | 12.0  | 42   | 113.2107        | 0.1087   |
+| 115.4431      | 12.86 | 45   | 113.0735        | 0.1087   |
+| 115.4431      | 14.0  | 49   | 112.9594        | 0.1087   |
+| 111.5901      | 14.86 | 52   | 112.8571        | 0.1087   |
+| 111.5901      | 16.0  | 56   | 112.6748        | 0.1087   |
+| 111.5901      | 16.86 | 59   | 112.6704        | 0.1087   |
+| 112.1751      | 18.0  | 63   | 112.6418        | 0.1087   |
+| 112.1751      | 18.86 | 66   | 112.8373        | 0.1087   |
+| 112.9078      | 20.0  | 70   | 112.8380        | 0.1087   |
+| 112.9078      | 20.86 | 73   | 112.7914        | 0.1087   |
+| 112.9078      | 22.0  | 77   | 112.5887        | 0.1087   |
+| 113.1403      | 22.86 | 80   | 112.6198        | 0.1087   |
+| 113.1403      | 24.0  | 84   | 112.2571        | 0.1087   |
+| 113.1403      | 24.86 | 87   | 112.2411        | 0.1087   |
+| 112.9338      | 26.0  | 91   | 112.1696        | 0.1087   |
+| 112.9338      | 26.86 | 94   | 112.1566        | 0.1087   |
+| 112.9338      | 28.0  | 98   | 112.3235        | 0.1087   |
+| 111.1035      | 28.86 | 101  | 112.2629        | 0.1087   |
+| 111.1035      | 30.0  | 105  | 112.0586        | 0.1087   |
+| 111.1035      | 30.86 | 108  | 112.0911        | 0.1087   |
+| 112.5756      | 32.0  | 112  | 112.2091        | 0.1087   |
+| 112.5756      | 32.86 | 115  | 112.1568        | 0.1087   |
+| 112.5756      | 34.0  | 119  | 111.8474        | 0.1087   |
+| 112.2756      | 34.29 | 120  | 111.8630        | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.95629119873047,
-    "eval_runtime": 0.6942,
-    "eval_samples_per_second": 66.266,
-    "eval_steps_per_second": 4.322,
-    "train_loss": 112.97269897460937,
-    "train_runtime": 134.324,
-    "train_samples_per_second": 63.429,
-    "train_steps_per_second": 0.893
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.73644256591797,
+    "eval_runtime": 0.5946,
+    "eval_samples_per_second": 77.357,
+    "eval_steps_per_second": 5.045,
+    "train_loss": 112.74697774251302,
+    "train_runtime": 128.6494,
+    "train_samples_per_second": 66.226,
+    "train_steps_per_second": 0.933
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.95629119873047,
-    "eval_runtime": 0.6942,
-    "eval_samples_per_second": 66.266,
-    "eval_steps_per_second": 4.322
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.73644256591797,
+    "eval_runtime": 0.5946,
+    "eval_samples_per_second": 77.357,
+    "eval_steps_per_second": 5.045
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fc36f501fe972e0a07bf8fed8813c2c5211b54394de8eaa01f7bad55db3aae1
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:37a2062fdea25c565927efa1bccc4042e6d74effa034bf445f2c9d3b5d6f1cb3
 size 12203648

runs/Dec01_10-45-48_DESKTOP-SKBE9FB/events.out.tfevents.1733071549.DESKTOP-SKBE9FB.15824.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26fb8b33917d8c1ee88ce1e90d1e972b9e49cd9242b1e30a454d9ffc1b14d1df
+size 17835

runs/Dec01_10-45-48_DESKTOP-SKBE9FB/events.out.tfevents.1733071679.DESKTOP-SKBE9FB.15824.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fadb3855185b9bcad8d72110d7ee2626579c478993a550f2c7d4bbbc94f53c6
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 112.97269897460937,
-    "train_runtime": 134.324,
-    "train_samples_per_second": 63.429,
-    "train_steps_per_second": 0.893
 }

 {
     "epoch": 34.29,
+    "train_loss": 112.74697774251302,
+    "train_runtime": 128.6494,
+    "train_samples_per_second": 66.226,
+    "train_steps_per_second": 0.933
 }

trainer_state.json CHANGED Viewed

@@ -11,398 +11,398 @@
     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.95629119873047,
-      "eval_runtime": 0.6964,
-      "eval_samples_per_second": 66.055,
-      "eval_steps_per_second": 4.308,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.952392578125,
-      "eval_runtime": 0.6137,
-      "eval_samples_per_second": 74.961,
-      "eval_steps_per_second": 4.889,
       "step": 7
     },
     {
       "epoch": 2.86,
       "learning_rate": 0.000125,
-      "loss": 114.2271,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.94542694091797,
-      "eval_runtime": 0.6086,
-      "eval_samples_per_second": 75.578,
-      "eval_steps_per_second": 4.929,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.93885803222656,
-      "eval_runtime": 0.6092,
-      "eval_samples_per_second": 75.515,
-      "eval_steps_per_second": 4.925,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.9226303100586,
-      "eval_runtime": 0.6577,
-      "eval_samples_per_second": 69.945,
-      "eval_steps_per_second": 4.562,
       "step": 17
     },
     {
       "epoch": 5.71,
       "learning_rate": 0.0001388888888888889,
-      "loss": 113.5566,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.89823913574219,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.517,
-      "eval_steps_per_second": 4.925,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.84252166748047,
-      "eval_runtime": 0.6192,
-      "eval_samples_per_second": 74.295,
-      "eval_steps_per_second": 4.845,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.7478256225586,
-      "eval_runtime": 0.6437,
-      "eval_samples_per_second": 71.467,
-      "eval_steps_per_second": 4.661,
       "step": 28
     },
     {
       "epoch": 8.57,
       "learning_rate": 0.000125,
-      "loss": 111.6907,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.65383911132812,
-      "eval_runtime": 0.6171,
-      "eval_samples_per_second": 74.538,
-      "eval_steps_per_second": 4.861,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.55889892578125,
-      "eval_runtime": 0.6282,
-      "eval_samples_per_second": 73.23,
-      "eval_steps_per_second": 4.776,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.500244140625,
-      "eval_runtime": 0.6501,
-      "eval_samples_per_second": 70.753,
-      "eval_steps_per_second": 4.614,
       "step": 38
     },
     {
       "epoch": 11.43,
       "learning_rate": 0.00011111111111111109,
-      "loss": 115.67,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.4496078491211,
-      "eval_runtime": 0.6246,
-      "eval_samples_per_second": 73.641,
-      "eval_steps_per_second": 4.803,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.37518310546875,
-      "eval_runtime": 0.6266,
-      "eval_samples_per_second": 73.406,
-      "eval_steps_per_second": 4.787,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.21294403076172,
-      "eval_runtime": 0.7182,
-      "eval_samples_per_second": 64.052,
-      "eval_steps_per_second": 4.177,
       "step": 49
     },
     {
       "epoch": 14.29,
       "learning_rate": 9.722222222222222e-05,
-      "loss": 111.8054,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.0827865600586,
-      "eval_runtime": 0.6252,
-      "eval_samples_per_second": 73.582,
-      "eval_steps_per_second": 4.799,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.88050842285156,
-      "eval_runtime": 0.6316,
-      "eval_samples_per_second": 72.825,
-      "eval_steps_per_second": 4.749,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.90125274658203,
-      "eval_runtime": 0.6246,
-      "eval_samples_per_second": 73.642,
-      "eval_steps_per_second": 4.803,
       "step": 59
     },
     {
       "epoch": 17.14,
       "learning_rate": 8.333333333333333e-05,
-      "loss": 112.3831,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.812255859375,
-      "eval_runtime": 0.6547,
-      "eval_samples_per_second": 70.263,
-      "eval_steps_per_second": 4.582,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.01899719238281,
-      "eval_runtime": 0.6161,
-      "eval_samples_per_second": 74.659,
-      "eval_steps_per_second": 4.869,
       "step": 66
     },
     {
       "epoch": 20.0,
       "learning_rate": 6.944444444444444e-05,
-      "loss": 113.1097,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.29285430908203,
-      "eval_runtime": 0.6286,
-      "eval_samples_per_second": 73.173,
-      "eval_steps_per_second": 4.772,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.88607025146484,
-      "eval_runtime": 0.6372,
-      "eval_samples_per_second": 72.196,
-      "eval_steps_per_second": 4.708,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.71536254882812,
-      "eval_runtime": 0.6587,
-      "eval_samples_per_second": 69.838,
-      "eval_steps_per_second": 4.555,
       "step": 77
     },
     {
       "epoch": 22.86,
       "learning_rate": 5.5555555555555545e-05,
-      "loss": 113.3674,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.69425964355469,
-      "eval_runtime": 0.6142,
-      "eval_samples_per_second": 74.9,
-      "eval_steps_per_second": 4.885,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.39366912841797,
-      "eval_runtime": 0.6652,
-      "eval_samples_per_second": 69.156,
-      "eval_steps_per_second": 4.51,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.38623809814453,
-      "eval_runtime": 0.6241,
-      "eval_samples_per_second": 73.701,
-      "eval_steps_per_second": 4.807,
       "step": 87
     },
     {
       "epoch": 25.71,
       "learning_rate": 4.1666666666666665e-05,
-      "loss": 113.1472,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.26931762695312,
-      "eval_runtime": 0.6136,
-      "eval_samples_per_second": 74.962,
-      "eval_steps_per_second": 4.889,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.31065368652344,
-      "eval_runtime": 0.7012,
-      "eval_samples_per_second": 65.606,
-      "eval_steps_per_second": 4.279,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.42163848876953,
-      "eval_runtime": 0.6231,
-      "eval_samples_per_second": 73.819,
-      "eval_steps_per_second": 4.814,
       "step": 98
     },
     {
       "epoch": 28.57,
       "learning_rate": 2.7777777777777772e-05,
-      "loss": 111.3252,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.33184051513672,
-      "eval_runtime": 0.6136,
-      "eval_samples_per_second": 74.962,
-      "eval_steps_per_second": 4.889,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.3516616821289,
-      "eval_runtime": 0.6282,
-      "eval_samples_per_second": 73.23,
-      "eval_steps_per_second": 4.776,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.42131042480469,
-      "eval_runtime": 0.6367,
-      "eval_samples_per_second": 72.253,
-      "eval_steps_per_second": 4.712,
       "step": 108
     },
     {
       "epoch": 31.43,
       "learning_rate": 1.3888888888888886e-05,
-      "loss": 112.827,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.48377227783203,
-      "eval_runtime": 0.6321,
-      "eval_samples_per_second": 72.768,
-      "eval_steps_per_second": 4.746,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.44902801513672,
-      "eval_runtime": 0.6151,
-      "eval_samples_per_second": 74.779,
-      "eval_steps_per_second": 4.877,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.15248107910156,
-      "eval_runtime": 0.6382,
-      "eval_samples_per_second": 72.082,
-      "eval_steps_per_second": 4.701,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 112.5631,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.195556640625,
-      "eval_runtime": 0.6527,
-      "eval_samples_per_second": 70.482,
-      "eval_steps_per_second": 4.597,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 112.97269897460937,
-      "train_runtime": 134.324,
-      "train_samples_per_second": 63.429,
-      "train_steps_per_second": 0.893
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.73644256591797,
+      "eval_runtime": 0.6432,
+      "eval_samples_per_second": 71.522,
+      "eval_steps_per_second": 4.664,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.73255157470703,
+      "eval_runtime": 0.6031,
+      "eval_samples_per_second": 76.268,
+      "eval_steps_per_second": 4.974,
       "step": 7
     },
     {
       "epoch": 2.86,
       "learning_rate": 0.000125,
+      "loss": 114.0068,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.72559356689453,
+      "eval_runtime": 0.8182,
+      "eval_samples_per_second": 56.221,
+      "eval_steps_per_second": 3.667,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.71858215332031,
+      "eval_runtime": 0.5882,
+      "eval_samples_per_second": 78.211,
+      "eval_steps_per_second": 5.101,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.7029037475586,
+      "eval_runtime": 0.5851,
+      "eval_samples_per_second": 78.615,
+      "eval_steps_per_second": 5.127,
       "step": 17
     },
     {
       "epoch": 5.71,
       "learning_rate": 0.0001388888888888889,
+      "loss": 113.3375,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.67913818359375,
+      "eval_runtime": 0.5952,
+      "eval_samples_per_second": 77.291,
+      "eval_steps_per_second": 5.041,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.62146759033203,
+      "eval_runtime": 0.5841,
+      "eval_samples_per_second": 78.749,
+      "eval_steps_per_second": 5.136,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.5252456665039,
+      "eval_runtime": 0.5881,
+      "eval_samples_per_second": 78.214,
+      "eval_steps_per_second": 5.101,
       "step": 28
     },
     {
       "epoch": 8.57,
       "learning_rate": 0.000125,
+      "loss": 111.4746,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.43194580078125,
+      "eval_runtime": 0.6071,
+      "eval_samples_per_second": 75.766,
+      "eval_steps_per_second": 4.941,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.33634948730469,
+      "eval_runtime": 0.7002,
+      "eval_samples_per_second": 65.698,
+      "eval_steps_per_second": 4.285,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.2650375366211,
+      "eval_runtime": 0.5971,
+      "eval_samples_per_second": 77.035,
+      "eval_steps_per_second": 5.024,
       "step": 38
     },
     {
       "epoch": 11.43,
       "learning_rate": 0.00011111111111111109,
+      "loss": 115.4431,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.21066284179688,
+      "eval_runtime": 0.6032,
+      "eval_samples_per_second": 76.266,
+      "eval_steps_per_second": 4.974,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.073486328125,
+      "eval_runtime": 0.6161,
+      "eval_samples_per_second": 74.659,
+      "eval_steps_per_second": 4.869,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.95938873291016,
+      "eval_runtime": 0.5966,
+      "eval_samples_per_second": 77.098,
+      "eval_steps_per_second": 5.028,
       "step": 49
     },
     {
       "epoch": 14.29,
       "learning_rate": 9.722222222222222e-05,
+      "loss": 111.5901,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.85713195800781,
+      "eval_runtime": 0.5917,
+      "eval_samples_per_second": 77.748,
+      "eval_steps_per_second": 5.071,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.6748275756836,
+      "eval_runtime": 0.6246,
+      "eval_samples_per_second": 73.641,
+      "eval_steps_per_second": 4.803,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.67044067382812,
+      "eval_runtime": 0.5956,
+      "eval_samples_per_second": 77.227,
+      "eval_steps_per_second": 5.037,
       "step": 59
     },
     {
       "epoch": 17.14,
       "learning_rate": 8.333333333333333e-05,
+      "loss": 112.1751,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.64176177978516,
+      "eval_runtime": 0.5781,
+      "eval_samples_per_second": 79.567,
+      "eval_steps_per_second": 5.189,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.83734130859375,
+      "eval_runtime": 0.5902,
+      "eval_samples_per_second": 77.946,
+      "eval_steps_per_second": 5.083,
       "step": 66
     },
     {
       "epoch": 20.0,
       "learning_rate": 6.944444444444444e-05,
+      "loss": 112.9078,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.83795166015625,
+      "eval_runtime": 0.6191,
+      "eval_samples_per_second": 74.297,
+      "eval_steps_per_second": 4.845,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.79137420654297,
+      "eval_runtime": 0.6136,
+      "eval_samples_per_second": 74.962,
+      "eval_steps_per_second": 4.889,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.58869934082031,
+      "eval_runtime": 0.5846,
+      "eval_samples_per_second": 78.681,
+      "eval_steps_per_second": 5.131,
       "step": 77
     },
     {
       "epoch": 22.86,
       "learning_rate": 5.5555555555555545e-05,
+      "loss": 113.1403,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.61984252929688,
+      "eval_runtime": 0.6196,
+      "eval_samples_per_second": 74.236,
+      "eval_steps_per_second": 4.841,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.25711059570312,
+      "eval_runtime": 0.6051,
+      "eval_samples_per_second": 76.016,
+      "eval_steps_per_second": 4.958,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.2410659790039,
+      "eval_runtime": 0.5831,
+      "eval_samples_per_second": 78.884,
+      "eval_steps_per_second": 5.145,
       "step": 87
     },
     {
       "epoch": 25.71,
       "learning_rate": 4.1666666666666665e-05,
+      "loss": 112.9338,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.16959381103516,
+      "eval_runtime": 0.6226,
+      "eval_samples_per_second": 73.878,
+      "eval_steps_per_second": 4.818,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.15655517578125,
+      "eval_runtime": 0.6151,
+      "eval_samples_per_second": 74.78,
+      "eval_steps_per_second": 4.877,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.32354736328125,
+      "eval_runtime": 0.5866,
+      "eval_samples_per_second": 78.413,
+      "eval_steps_per_second": 5.114,
       "step": 98
     },
     {
       "epoch": 28.57,
       "learning_rate": 2.7777777777777772e-05,
+      "loss": 111.1035,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.26287841796875,
+      "eval_runtime": 0.5856,
+      "eval_samples_per_second": 78.547,
+      "eval_steps_per_second": 5.123,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.05860137939453,
+      "eval_runtime": 0.6191,
+      "eval_samples_per_second": 74.297,
+      "eval_steps_per_second": 4.845,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.09107208251953,
+      "eval_runtime": 0.5961,
+      "eval_samples_per_second": 77.164,
+      "eval_steps_per_second": 5.032,
       "step": 108
     },
     {
       "epoch": 31.43,
       "learning_rate": 1.3888888888888886e-05,
+      "loss": 112.5756,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.2091293334961,
+      "eval_runtime": 0.6056,
+      "eval_samples_per_second": 75.952,
+      "eval_steps_per_second": 4.953,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.1567611694336,
+      "eval_runtime": 0.6136,
+      "eval_samples_per_second": 74.962,
+      "eval_steps_per_second": 4.889,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.84735870361328,
+      "eval_runtime": 0.5926,
+      "eval_samples_per_second": 77.618,
+      "eval_steps_per_second": 5.062,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 112.2756,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.86297607421875,
+      "eval_runtime": 0.5896,
+      "eval_samples_per_second": 78.014,
+      "eval_steps_per_second": 5.088,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 112.74697774251302,
+      "train_runtime": 128.6494,
+      "train_samples_per_second": 66.226,
+      "train_steps_per_second": 0.933
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca22fbcceedf6a1587f3bdfcbff82d0938662a5874b0085c375ade4d287a4278
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:3167ae056426e39cedb2d2abec62f92123cfad39beb1fe893e34fb5f5a3a4aa2
 size 4728