Augusto777 commited on Dec 2, 2024

Commit

79c5d5d

verified ·

1 Parent(s): 55d5453

End of training

Browse files

Files changed (17) hide show

README.md +37 -37
all_results.json +8 -8
eval_results.json +4 -4
model.safetensors +1 -1
runs/Dec01_18-53-01_DESKTOP-SKBE9FB/events.out.tfevents.1733100781.DESKTOP-SKBE9FB.5608.0 +3 -0
runs/Dec01_19-03-33_DESKTOP-SKBE9FB/events.out.tfevents.1733101414.DESKTOP-SKBE9FB.15316.0 +3 -0
runs/Dec01_19-04-24_DESKTOP-SKBE9FB/events.out.tfevents.1733101465.DESKTOP-SKBE9FB.6740.0 +3 -0
runs/Dec01_19-06-55_DESKTOP-SKBE9FB/events.out.tfevents.1733101616.DESKTOP-SKBE9FB.17676.0 +3 -0
runs/Dec01_19-07-36_DESKTOP-SKBE9FB/events.out.tfevents.1733101657.DESKTOP-SKBE9FB.17488.0 +3 -0
runs/Dec01_19-08-27_DESKTOP-SKBE9FB/events.out.tfevents.1733101708.DESKTOP-SKBE9FB.16292.0 +3 -0
runs/Dec01_19-09-07_DESKTOP-SKBE9FB/events.out.tfevents.1733101748.DESKTOP-SKBE9FB.6848.0 +3 -0
runs/Dec01_19-24-29_DESKTOP-SKBE9FB/events.out.tfevents.1733102670.DESKTOP-SKBE9FB.17704.0 +3 -0
runs/Dec02_09-42-53_DESKTOP-SKBE9FB/events.out.tfevents.1733154174.DESKTOP-SKBE9FB.8.0 +3 -0
runs/Dec02_09-42-53_DESKTOP-SKBE9FB/events.out.tfevents.1733154311.DESKTOP-SKBE9FB.8.1 +3 -0
train_results.json +4 -4
trainer_state.json +164 -164
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -31,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 113.7364
 - Accuracy: 0.1087
 ## Model description
@@ -51,7 +51,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.00015
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -66,41 +66,41 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 113.7364        | 0.1087   |
-| No log        | 2.0   | 7    | 113.7326        | 0.1087   |
-| 114.0068      | 2.86  | 10   | 113.7256        | 0.1087   |
-| 114.0068      | 4.0   | 14   | 113.7186        | 0.1087   |
-| 114.0068      | 4.86  | 17   | 113.7029        | 0.1087   |
-| 113.3375      | 6.0   | 21   | 113.6791        | 0.1087   |
-| 113.3375      | 6.86  | 24   | 113.6215        | 0.1087   |
-| 113.3375      | 8.0   | 28   | 113.5252        | 0.1087   |
-| 111.4746      | 8.86  | 31   | 113.4319        | 0.1087   |
-| 111.4746      | 10.0  | 35   | 113.3363        | 0.1087   |
-| 111.4746      | 10.86 | 38   | 113.2650        | 0.1087   |
-| 115.4431      | 12.0  | 42   | 113.2107        | 0.1087   |
-| 115.4431      | 12.86 | 45   | 113.0735        | 0.1087   |
-| 115.4431      | 14.0  | 49   | 112.9594        | 0.1087   |
-| 111.5901      | 14.86 | 52   | 112.8571        | 0.1087   |
-| 111.5901      | 16.0  | 56   | 112.6748        | 0.1087   |
-| 111.5901      | 16.86 | 59   | 112.6704        | 0.1087   |
-| 112.1751      | 18.0  | 63   | 112.6418        | 0.1087   |
-| 112.1751      | 18.86 | 66   | 112.8373        | 0.1087   |
-| 112.9078      | 20.0  | 70   | 112.8380        | 0.1087   |
-| 112.9078      | 20.86 | 73   | 112.7914        | 0.1087   |
-| 112.9078      | 22.0  | 77   | 112.5887        | 0.1087   |
-| 113.1403      | 22.86 | 80   | 112.6198        | 0.1087   |
-| 113.1403      | 24.0  | 84   | 112.2571        | 0.1087   |
-| 113.1403      | 24.86 | 87   | 112.2411        | 0.1087   |
-| 112.9338      | 26.0  | 91   | 112.1696        | 0.1087   |
-| 112.9338      | 26.86 | 94   | 112.1566        | 0.1087   |
-| 112.9338      | 28.0  | 98   | 112.3235        | 0.1087   |
-| 111.1035      | 28.86 | 101  | 112.2629        | 0.1087   |
-| 111.1035      | 30.0  | 105  | 112.0586        | 0.1087   |
-| 111.1035      | 30.86 | 108  | 112.0911        | 0.1087   |
-| 112.5756      | 32.0  | 112  | 112.2091        | 0.1087   |
-| 112.5756      | 32.86 | 115  | 112.1568        | 0.1087   |
-| 112.5756      | 34.0  | 119  | 111.8474        | 0.1087   |
-| 112.2756      | 34.29 | 120  | 111.8630        | 0.1087   |
 ### Framework versions

 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 113.8184
 - Accuracy: 0.1087
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0003
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.86  | 3    | 113.8184        | 0.1087   |
+| No log        | 2.0   | 7    | 113.8094        | 0.1087   |
+| 114.0867      | 2.86  | 10   | 113.7944        | 0.1087   |
+| 114.0867      | 4.0   | 14   | 113.7881        | 0.1087   |
+| 114.0867      | 4.86  | 17   | 113.7100        | 0.1087   |
+| 113.3425      | 6.0   | 21   | 113.5884        | 0.1087   |
+| 113.3425      | 6.86  | 24   | 113.4998        | 0.1087   |
+| 113.3425      | 8.0   | 28   | 113.0578        | 0.1087   |
+| 111.228       | 8.86  | 31   | 112.8053        | 0.1087   |
+| 111.228       | 10.0  | 35   | 112.5202        | 0.1087   |
+| 111.228       | 10.86 | 38   | 112.5811        | 0.1087   |
+| 114.9647      | 12.0  | 42   | 112.6090        | 0.1087   |
+| 114.9647      | 12.86 | 45   | 112.4973        | 0.1087   |
+| 114.9647      | 14.0  | 49   | 111.9761        | 0.1087   |
+| 110.7738      | 14.86 | 52   | 111.8117        | 0.1087   |
+| 110.7738      | 16.0  | 56   | 111.6589        | 0.1087   |
+| 110.7738      | 16.86 | 59   | 111.5367        | 0.1087   |
+| 111.0505      | 18.0  | 63   | 111.7016        | 0.1087   |
+| 111.0505      | 18.86 | 66   | 111.9068        | 0.1087   |
+| 111.4545      | 20.0  | 70   | 111.6203        | 0.1087   |
+| 111.4545      | 20.86 | 73   | 111.1266        | 0.1087   |
+| 111.4545      | 22.0  | 77   | 110.2879        | 0.1087   |
+| 111.2779      | 22.86 | 80   | 109.8523        | 0.1087   |
+| 111.2779      | 24.0  | 84   | 109.5283        | 0.1087   |
+| 111.2779      | 24.86 | 87   | 109.9590        | 0.1087   |
+| 110.5166      | 26.0  | 91   | 109.9752        | 0.1087   |
+| 110.5166      | 26.86 | 94   | 109.5435        | 0.1087   |
+| 110.5166      | 28.0  | 98   | 109.5712        | 0.1087   |
+| 108.66        | 28.86 | 101  | 108.8924        | 0.1087   |
+| 108.66        | 30.0  | 105  | 108.3990        | 0.1087   |
+| 108.66        | 30.86 | 108  | 108.7050        | 0.1087   |
+| 109.688       | 32.0  | 112  | 108.7237        | 0.1087   |
+| 109.688       | 32.86 | 115  | 109.0679        | 0.1087   |
+| 109.688       | 34.0  | 119  | 108.5750        | 0.1087   |
+| 109.4549      | 34.29 | 120  | 108.5167        | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.73644256591797,
-    "eval_runtime": 0.5946,
-    "eval_samples_per_second": 77.357,
-    "eval_steps_per_second": 5.045,
-    "train_loss": 112.74697774251302,
-    "train_runtime": 128.6494,
-    "train_samples_per_second": 66.226,
-    "train_steps_per_second": 0.933
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.81844329833984,
+    "eval_runtime": 0.6186,
+    "eval_samples_per_second": 74.356,
+    "eval_steps_per_second": 4.849,
+    "train_loss": 111.37485249837239,
+    "train_runtime": 136.0598,
+    "train_samples_per_second": 62.62,
+    "train_steps_per_second": 0.882
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.73644256591797,
-    "eval_runtime": 0.5946,
-    "eval_samples_per_second": 77.357,
-    "eval_steps_per_second": 5.045
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.81844329833984,
+    "eval_runtime": 0.6186,
+    "eval_samples_per_second": 74.356,
+    "eval_steps_per_second": 4.849
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37a2062fdea25c565927efa1bccc4042e6d74effa034bf445f2c9d3b5d6f1cb3
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe65117317844ece5f5dc4f0f5845b05e9ebd35dc9b078531fa983038481075a
 size 12203648

runs/Dec01_18-53-01_DESKTOP-SKBE9FB/events.out.tfevents.1733100781.DESKTOP-SKBE9FB.5608.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:579e5f86745392fc98f33e6da7a920ff2373ffddae2b3031cefed926b508f461
+size 6753

runs/Dec01_19-03-33_DESKTOP-SKBE9FB/events.out.tfevents.1733101414.DESKTOP-SKBE9FB.15316.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9bc02d95e3d89fc5e3997fc351b6e73f5ac1c48c4ecae62be84a3d7e4090ba0
+size 6753

runs/Dec01_19-04-24_DESKTOP-SKBE9FB/events.out.tfevents.1733101465.DESKTOP-SKBE9FB.6740.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abfd549e84f44578bf9eccd3eb28dd9db8a88e14cd190f2f1a81800d3bacc614
+size 12278

runs/Dec01_19-06-55_DESKTOP-SKBE9FB/events.out.tfevents.1733101616.DESKTOP-SKBE9FB.17676.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbad66f738556f0c86098df41e871716d80060c8bccb8a100e04386fa79a32e7
+size 5965

runs/Dec01_19-07-36_DESKTOP-SKBE9FB/events.out.tfevents.1733101657.DESKTOP-SKBE9FB.17488.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a4c539c6ba07375d125173c63a1a6843008b202480fbecd8ae7178aa7d0e291
+size 5177

runs/Dec01_19-08-27_DESKTOP-SKBE9FB/events.out.tfevents.1733101708.DESKTOP-SKBE9FB.16292.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a74dd82e0d79afb23ea07955e234f4e45e4338dc46b07bb4125d460884c8fda
+size 5648

runs/Dec01_19-09-07_DESKTOP-SKBE9FB/events.out.tfevents.1733101748.DESKTOP-SKBE9FB.6848.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee5526aaff3da791e890f705193b218704e2bbfec61f3c8fd0dc794d8389dfad
+size 5177

runs/Dec01_19-24-29_DESKTOP-SKBE9FB/events.out.tfevents.1733102670.DESKTOP-SKBE9FB.17704.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bbe38e6e4a96764749ce47c2e562e70a8683f16e3a1520fce1e8ad7b8fc8b89
+size 7386

runs/Dec02_09-42-53_DESKTOP-SKBE9FB/events.out.tfevents.1733154174.DESKTOP-SKBE9FB.8.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d8b4e07e4679003de18acaf6d4f22d63201aff0e0db6e6fc66fdf6b41b48f0e
+size 17834

runs/Dec02_09-42-53_DESKTOP-SKBE9FB/events.out.tfevents.1733154311.DESKTOP-SKBE9FB.8.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1964859b0a63be59e613359fd4a83d460f4b768734ae5a9f8ce7f967b197d9b4
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 112.74697774251302,
-    "train_runtime": 128.6494,
-    "train_samples_per_second": 66.226,
-    "train_steps_per_second": 0.933
 }

 {
     "epoch": 34.29,
+    "train_loss": 111.37485249837239,
+    "train_runtime": 136.0598,
+    "train_samples_per_second": 62.62,
+    "train_steps_per_second": 0.882
 }

trainer_state.json CHANGED Viewed

@@ -11,295 +11,295 @@
     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.73644256591797,
-      "eval_runtime": 0.6432,
-      "eval_samples_per_second": 71.522,
-      "eval_steps_per_second": 4.664,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.73255157470703,
-      "eval_runtime": 0.6031,
-      "eval_samples_per_second": 76.268,
-      "eval_steps_per_second": 4.974,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 0.000125,
-      "loss": 114.0068,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.72559356689453,
-      "eval_runtime": 0.8182,
-      "eval_samples_per_second": 56.221,
-      "eval_steps_per_second": 3.667,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.71858215332031,
-      "eval_runtime": 0.5882,
-      "eval_samples_per_second": 78.211,
-      "eval_steps_per_second": 5.101,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.7029037475586,
-      "eval_runtime": 0.5851,
-      "eval_samples_per_second": 78.615,
-      "eval_steps_per_second": 5.127,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 113.3375,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.67913818359375,
-      "eval_runtime": 0.5952,
-      "eval_samples_per_second": 77.291,
-      "eval_steps_per_second": 5.041,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.62146759033203,
-      "eval_runtime": 0.5841,
-      "eval_samples_per_second": 78.749,
-      "eval_steps_per_second": 5.136,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.5252456665039,
-      "eval_runtime": 0.5881,
-      "eval_samples_per_second": 78.214,
-      "eval_steps_per_second": 5.101,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.000125,
-      "loss": 111.4746,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.43194580078125,
-      "eval_runtime": 0.6071,
-      "eval_samples_per_second": 75.766,
-      "eval_steps_per_second": 4.941,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.33634948730469,
-      "eval_runtime": 0.7002,
-      "eval_samples_per_second": 65.698,
-      "eval_steps_per_second": 4.285,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.2650375366211,
-      "eval_runtime": 0.5971,
-      "eval_samples_per_second": 77.035,
-      "eval_steps_per_second": 5.024,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.00011111111111111109,
-      "loss": 115.4431,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.21066284179688,
-      "eval_runtime": 0.6032,
-      "eval_samples_per_second": 76.266,
-      "eval_steps_per_second": 4.974,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.073486328125,
-      "eval_runtime": 0.6161,
-      "eval_samples_per_second": 74.659,
-      "eval_steps_per_second": 4.869,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.95938873291016,
-      "eval_runtime": 0.5966,
-      "eval_samples_per_second": 77.098,
-      "eval_steps_per_second": 5.028,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 9.722222222222222e-05,
-      "loss": 111.5901,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.85713195800781,
-      "eval_runtime": 0.5917,
-      "eval_samples_per_second": 77.748,
-      "eval_steps_per_second": 5.071,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.6748275756836,
-      "eval_runtime": 0.6246,
-      "eval_samples_per_second": 73.641,
-      "eval_steps_per_second": 4.803,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.67044067382812,
-      "eval_runtime": 0.5956,
-      "eval_samples_per_second": 77.227,
-      "eval_steps_per_second": 5.037,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 8.333333333333333e-05,
-      "loss": 112.1751,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.64176177978516,
-      "eval_runtime": 0.5781,
-      "eval_samples_per_second": 79.567,
-      "eval_steps_per_second": 5.189,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.83734130859375,
-      "eval_runtime": 0.5902,
-      "eval_samples_per_second": 77.946,
-      "eval_steps_per_second": 5.083,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 6.944444444444444e-05,
-      "loss": 112.9078,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.83795166015625,
-      "eval_runtime": 0.6191,
-      "eval_samples_per_second": 74.297,
-      "eval_steps_per_second": 4.845,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.79137420654297,
-      "eval_runtime": 0.6136,
-      "eval_samples_per_second": 74.962,
-      "eval_steps_per_second": 4.889,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.58869934082031,
-      "eval_runtime": 0.5846,
-      "eval_samples_per_second": 78.681,
-      "eval_steps_per_second": 5.131,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 5.5555555555555545e-05,
-      "loss": 113.1403,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.61984252929688,
-      "eval_runtime": 0.6196,
-      "eval_samples_per_second": 74.236,
-      "eval_steps_per_second": 4.841,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.25711059570312,
-      "eval_runtime": 0.6051,
-      "eval_samples_per_second": 76.016,
-      "eval_steps_per_second": 4.958,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.2410659790039,
-      "eval_runtime": 0.5831,
-      "eval_samples_per_second": 78.884,
-      "eval_steps_per_second": 5.145,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 4.1666666666666665e-05,
-      "loss": 112.9338,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.16959381103516,
-      "eval_runtime": 0.6226,
-      "eval_samples_per_second": 73.878,
-      "eval_steps_per_second": 4.818,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.15655517578125,
       "eval_runtime": 0.6151,
       "eval_samples_per_second": 74.78,
       "eval_steps_per_second": 4.877,
@@ -308,101 +308,101 @@
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.32354736328125,
-      "eval_runtime": 0.5866,
-      "eval_samples_per_second": 78.413,
-      "eval_steps_per_second": 5.114,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 2.7777777777777772e-05,
-      "loss": 111.1035,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.26287841796875,
-      "eval_runtime": 0.5856,
-      "eval_samples_per_second": 78.547,
-      "eval_steps_per_second": 5.123,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.05860137939453,
-      "eval_runtime": 0.6191,
-      "eval_samples_per_second": 74.297,
-      "eval_steps_per_second": 4.845,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.09107208251953,
-      "eval_runtime": 0.5961,
-      "eval_samples_per_second": 77.164,
-      "eval_steps_per_second": 5.032,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 1.3888888888888886e-05,
-      "loss": 112.5756,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.2091293334961,
-      "eval_runtime": 0.6056,
-      "eval_samples_per_second": 75.952,
-      "eval_steps_per_second": 4.953,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.1567611694336,
-      "eval_runtime": 0.6136,
-      "eval_samples_per_second": 74.962,
-      "eval_steps_per_second": 4.889,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.84735870361328,
-      "eval_runtime": 0.5926,
-      "eval_samples_per_second": 77.618,
-      "eval_steps_per_second": 5.062,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 112.2756,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.86297607421875,
-      "eval_runtime": 0.5896,
-      "eval_samples_per_second": 78.014,
-      "eval_steps_per_second": 5.088,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 112.74697774251302,
-      "train_runtime": 128.6494,
-      "train_samples_per_second": 66.226,
-      "train_steps_per_second": 0.933
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.81844329833984,
+      "eval_runtime": 0.9277,
+      "eval_samples_per_second": 49.584,
+      "eval_steps_per_second": 3.234,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.80943298339844,
+      "eval_runtime": 0.5649,
+      "eval_samples_per_second": 81.43,
+      "eval_steps_per_second": 5.311,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 0.00025,
+      "loss": 114.0867,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.79438018798828,
+      "eval_runtime": 0.6062,
+      "eval_samples_per_second": 75.888,
+      "eval_steps_per_second": 4.949,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.78809356689453,
+      "eval_runtime": 0.6076,
+      "eval_samples_per_second": 75.702,
+      "eval_steps_per_second": 4.937,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.70995330810547,
+      "eval_runtime": 0.6162,
+      "eval_samples_per_second": 74.657,
+      "eval_steps_per_second": 4.869,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 0.0002777777777777778,
+      "loss": 113.3425,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.58837890625,
+      "eval_runtime": 0.6537,
+      "eval_samples_per_second": 70.373,
+      "eval_steps_per_second": 4.59,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.49983978271484,
+      "eval_runtime": 0.5761,
+      "eval_samples_per_second": 79.843,
+      "eval_steps_per_second": 5.207,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.05781555175781,
+      "eval_runtime": 2.1702,
+      "eval_samples_per_second": 21.196,
+      "eval_steps_per_second": 1.382,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 0.00025,
+      "loss": 111.228,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.80531311035156,
+      "eval_runtime": 0.5921,
+      "eval_samples_per_second": 77.685,
+      "eval_steps_per_second": 5.066,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.52015686035156,
+      "eval_runtime": 0.6021,
+      "eval_samples_per_second": 76.395,
+      "eval_steps_per_second": 4.982,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.58113861083984,
+      "eval_runtime": 0.5977,
+      "eval_samples_per_second": 76.964,
+      "eval_steps_per_second": 5.019,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 0.00022222222222222218,
+      "loss": 114.9647,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.60899353027344,
+      "eval_runtime": 0.5971,
+      "eval_samples_per_second": 77.035,
+      "eval_steps_per_second": 5.024,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.49734497070312,
+      "eval_runtime": 0.5906,
+      "eval_samples_per_second": 77.882,
+      "eval_steps_per_second": 5.079,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.97610473632812,
+      "eval_runtime": 0.5781,
+      "eval_samples_per_second": 79.567,
+      "eval_steps_per_second": 5.189,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 0.00019444444444444443,
+      "loss": 110.7738,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.81171417236328,
+      "eval_runtime": 0.5761,
+      "eval_samples_per_second": 79.841,
+      "eval_steps_per_second": 5.207,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.65890502929688,
+      "eval_runtime": 0.5781,
+      "eval_samples_per_second": 79.567,
+      "eval_steps_per_second": 5.189,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.53672790527344,
+      "eval_runtime": 0.5771,
+      "eval_samples_per_second": 79.703,
+      "eval_steps_per_second": 5.198,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 111.0505,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.7016372680664,
+      "eval_runtime": 0.6091,
+      "eval_samples_per_second": 75.517,
+      "eval_steps_per_second": 4.925,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.90676879882812,
+      "eval_runtime": 0.6357,
+      "eval_samples_per_second": 72.366,
+      "eval_steps_per_second": 4.72,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 111.4545,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.62030792236328,
+      "eval_runtime": 0.6126,
+      "eval_samples_per_second": 75.084,
+      "eval_steps_per_second": 4.897,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.12662506103516,
+      "eval_runtime": 0.6051,
+      "eval_samples_per_second": 76.016,
+      "eval_steps_per_second": 4.958,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 110.28787231445312,
+      "eval_runtime": 0.6352,
+      "eval_samples_per_second": 72.422,
+      "eval_steps_per_second": 4.723,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 0.00011111111111111109,
+      "loss": 111.2779,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.85228729248047,
+      "eval_runtime": 0.5951,
+      "eval_samples_per_second": 77.292,
+      "eval_steps_per_second": 5.041,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.52828979492188,
+      "eval_runtime": 0.5951,
+      "eval_samples_per_second": 77.292,
+      "eval_steps_per_second": 5.041,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.9590072631836,
+      "eval_runtime": 0.5836,
+      "eval_samples_per_second": 78.816,
+      "eval_steps_per_second": 5.14,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 110.5166,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.97518157958984,
+      "eval_runtime": 0.6056,
+      "eval_samples_per_second": 75.952,
+      "eval_steps_per_second": 4.953,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.54348754882812,
       "eval_runtime": 0.6151,
       "eval_samples_per_second": 74.78,
       "eval_steps_per_second": 4.877,
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.57117462158203,
+      "eval_runtime": 0.6156,
+      "eval_samples_per_second": 74.718,
+      "eval_steps_per_second": 4.873,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 5.5555555555555545e-05,
+      "loss": 108.66,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.89238739013672,
+      "eval_runtime": 0.6327,
+      "eval_samples_per_second": 72.71,
+      "eval_steps_per_second": 4.742,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.39895629882812,
+      "eval_runtime": 0.6281,
+      "eval_samples_per_second": 73.232,
+      "eval_steps_per_second": 4.776,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.70501708984375,
+      "eval_runtime": 0.6417,
+      "eval_samples_per_second": 71.69,
+      "eval_steps_per_second": 4.675,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 2.7777777777777772e-05,
+      "loss": 109.688,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.7237319946289,
+      "eval_runtime": 0.6112,
+      "eval_samples_per_second": 75.267,
+      "eval_steps_per_second": 4.909,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.0678939819336,
+      "eval_runtime": 0.6072,
+      "eval_samples_per_second": 75.763,
+      "eval_steps_per_second": 4.941,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.574951171875,
+      "eval_runtime": 0.6091,
+      "eval_samples_per_second": 75.516,
+      "eval_steps_per_second": 4.925,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 109.4549,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.5167465209961,
+      "eval_runtime": 0.6016,
+      "eval_samples_per_second": 76.457,
+      "eval_steps_per_second": 4.986,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 111.37485249837239,
+      "train_runtime": 136.0598,
+      "train_samples_per_second": 62.62,
+      "train_steps_per_second": 0.882
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3167ae056426e39cedb2d2abec62f92123cfad39beb1fe893e34fb5f5a3a4aa2
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb32682ac9637aabf7bfeee556e5232c7b3af6054a8291210f22ee42fe3540cf
 size 4728