End of training

Browse files

Files changed (9) hide show

README.md +37 -37
all_results.json +8 -8
eval_results.json +4 -4
model.safetensors +1 -1
runs/Dec02_10-23-47_DESKTOP-SKBE9FB/events.out.tfevents.1733156627.DESKTOP-SKBE9FB.19684.0 +3 -0
runs/Dec02_10-23-47_DESKTOP-SKBE9FB/events.out.tfevents.1733156758.DESKTOP-SKBE9FB.19684.1 +3 -0
train_results.json +4 -4
trainer_state.json +167 -167
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -31,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 113.9792
 - Accuracy: 0.1087
 ## Model description
@@ -51,7 +51,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0003
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -65,41 +65,41 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 113.9792        | 0.1087   |
-| No log        | 2.0   | 7    | 113.9181        | 0.1087   |
-| 114.2395      | 2.86  | 10   | 113.8813        | 0.1087   |
-| 114.2395      | 4.0   | 14   | 113.8116        | 0.1087   |
-| 114.2395      | 4.86  | 17   | 113.6986        | 0.1087   |
-| 113.364       | 6.0   | 21   | 113.4798        | 0.1087   |
-| 113.364       | 6.86  | 24   | 113.2337        | 0.1087   |
-| 113.364       | 8.0   | 28   | 112.8223        | 0.1087   |
-| 111.1062      | 8.86  | 31   | 112.5788        | 0.1087   |
-| 111.1062      | 10.0  | 35   | 112.4157        | 0.1087   |
-| 111.1062      | 10.86 | 38   | 112.5536        | 0.1087   |
-| 114.7018      | 12.0  | 42   | 111.7043        | 0.1087   |
-| 114.7018      | 12.86 | 45   | 111.6553        | 0.1087   |
-| 114.7018      | 14.0  | 49   | 111.6134        | 0.1087   |
-| 110.4914      | 14.86 | 52   | 111.5980        | 0.1087   |
-| 110.4914      | 16.0  | 56   | 111.7616        | 0.1087   |
-| 110.4914      | 16.86 | 59   | 111.1580        | 0.1087   |
-| 110.734       | 18.0  | 63   | 111.7108        | 0.1087   |
-| 110.734       | 18.86 | 66   | 111.5206        | 0.1087   |
-| 111.3772      | 20.0  | 70   | 110.8819        | 0.1087   |
-| 111.3772      | 20.86 | 73   | 110.8025        | 0.1087   |
-| 111.3772      | 22.0  | 77   | 110.3515        | 0.1087   |
-| 111.2973      | 22.86 | 80   | 110.2387        | 0.1087   |
-| 111.2973      | 24.0  | 84   | 109.8073        | 0.1087   |
-| 111.2973      | 24.86 | 87   | 109.8227        | 0.1087   |
-| 110.7135      | 26.0  | 91   | 109.6086        | 0.1087   |
-| 110.7135      | 26.86 | 94   | 109.5835        | 0.1087   |
-| 110.7135      | 28.0  | 98   | 109.5830        | 0.1087   |
-| 109.1264      | 28.86 | 101  | 109.1648        | 0.1087   |
-| 109.1264      | 30.0  | 105  | 109.0658        | 0.1087   |
-| 109.1264      | 30.86 | 108  | 109.2846        | 0.1087   |
-| 110.2885      | 32.0  | 112  | 109.0267        | 0.1087   |
-| 110.2885      | 32.86 | 115  | 109.0973        | 0.1087   |
-| 110.2885      | 34.0  | 119  | 108.8769        | 0.1087   |
-| 110.1122      | 34.29 | 120  | 108.8197        | 0.1087   |
 ### Framework versions

 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 113.8883
 - Accuracy: 0.1087
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2.5e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.86  | 3    | 113.8883        | 0.1087   |
+| No log        | 2.0   | 7    | 113.8868        | 0.1087   |
+| 114.1606      | 2.86  | 10   | 113.8851        | 0.1087   |
+| 114.1606      | 4.0   | 14   | 113.8846        | 0.1087   |
+| 114.1606      | 4.86  | 17   | 113.8832        | 0.1087   |
+| 113.5172      | 6.0   | 21   | 113.8808        | 0.1087   |
+| 113.5172      | 6.86  | 24   | 113.8795        | 0.1087   |
+| 113.5172      | 8.0   | 28   | 113.8794        | 0.1087   |
+| 111.7557      | 8.86  | 31   | 113.8766        | 0.1087   |
+| 111.7557      | 10.0  | 35   | 113.8747        | 0.1087   |
+| 111.7557      | 10.86 | 38   | 113.8735        | 0.1087   |
+| 115.9434      | 12.0  | 42   | 113.8712        | 0.1087   |
+| 115.9434      | 12.86 | 45   | 113.8699        | 0.1087   |
+| 115.9434      | 14.0  | 49   | 113.8671        | 0.1087   |
+| 112.3427      | 14.86 | 52   | 113.8607        | 0.1087   |
+| 112.3427      | 16.0  | 56   | 113.8567        | 0.1087   |
+| 112.3427      | 16.86 | 59   | 113.8570        | 0.1087   |
+| 113.2123      | 18.0  | 63   | 113.8532        | 0.1087   |
+| 113.2123      | 18.86 | 66   | 113.8511        | 0.1087   |
+| 114.0835      | 20.0  | 70   | 113.8500        | 0.1087   |
+| 114.0835      | 20.86 | 73   | 113.8469        | 0.1087   |
+| 114.0835      | 22.0  | 77   | 113.8450        | 0.1087   |
+| 114.5528      | 22.86 | 80   | 113.8422        | 0.1087   |
+| 114.5528      | 24.0  | 84   | 113.8341        | 0.1087   |
+| 114.5528      | 24.86 | 87   | 113.8315        | 0.1087   |
+| 114.5432      | 26.0  | 91   | 113.8268        | 0.1087   |
+| 114.5432      | 26.86 | 94   | 113.8247        | 0.1087   |
+| 114.5432      | 28.0  | 98   | 113.8250        | 0.1087   |
+| 112.7825      | 28.86 | 101  | 113.8207        | 0.1087   |
+| 112.7825      | 30.0  | 105  | 113.8155        | 0.1087   |
+| 112.7825      | 30.86 | 108  | 113.8183        | 0.1087   |
+| 114.2965      | 32.0  | 112  | 113.8187        | 0.1087   |
+| 114.2965      | 32.86 | 115  | 113.8187        | 0.1087   |
+| 114.2965      | 34.0  | 119  | 113.8124        | 0.1087   |
+| 114.0925      | 34.29 | 120  | 113.8146        | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.97916412353516,
-    "eval_runtime": 0.6356,
-    "eval_samples_per_second": 72.367,
-    "eval_steps_per_second": 4.72,
-    "train_loss": 111.46265258789063,
-    "train_runtime": 130.8746,
-    "train_samples_per_second": 65.1,
-    "train_steps_per_second": 0.917
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.88832092285156,
+    "eval_runtime": 0.6376,
+    "eval_samples_per_second": 72.14,
+    "eval_steps_per_second": 4.705,
+    "train_loss": 113.7735809326172,
+    "train_runtime": 129.8431,
+    "train_samples_per_second": 65.618,
+    "train_steps_per_second": 0.924
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.97916412353516,
-    "eval_runtime": 0.6356,
-    "eval_samples_per_second": 72.367,
-    "eval_steps_per_second": 4.72
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.88832092285156,
+    "eval_runtime": 0.6376,
+    "eval_samples_per_second": 72.14,
+    "eval_steps_per_second": 4.705
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9abc21787697a9a072a3f6a188dce8a9ed5c283c0126e8ce76d7e1d332759618
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd253f136dfe3348ed3c408b8e3c4cb2dc70ebcd178addaee7cca00fdd69500d
 size 12203648

runs/Dec02_10-23-47_DESKTOP-SKBE9FB/events.out.tfevents.1733156627.DESKTOP-SKBE9FB.19684.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:758bb3a53546fefa16d401a1e735a5aa3c003ee380b1d3c0f92bfcd95b5797fe
+size 17833

runs/Dec02_10-23-47_DESKTOP-SKBE9FB/events.out.tfevents.1733156758.DESKTOP-SKBE9FB.19684.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c07ec804dac672b35cde8e400e8f120932d2866340da6bd2d5add429a4f2d13
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 111.46265258789063,
-    "train_runtime": 130.8746,
-    "train_samples_per_second": 65.1,
-    "train_steps_per_second": 0.917
 }

 {
     "epoch": 34.29,
+    "train_loss": 113.7735809326172,
+    "train_runtime": 129.8431,
+    "train_samples_per_second": 65.618,
+    "train_steps_per_second": 0.924
 }

trainer_state.json CHANGED Viewed

@@ -11,398 +11,398 @@
     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.97916412353516,
-      "eval_runtime": 0.6657,
-      "eval_samples_per_second": 69.104,
-      "eval_steps_per_second": 4.507,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.9181137084961,
-      "eval_runtime": 0.5771,
-      "eval_samples_per_second": 79.702,
-      "eval_steps_per_second": 5.198,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 0.00027499999999999996,
-      "loss": 114.2395,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.88134765625,
-      "eval_runtime": 0.5806,
-      "eval_samples_per_second": 79.223,
-      "eval_steps_per_second": 5.167,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.81156921386719,
-      "eval_runtime": 0.6172,
-      "eval_samples_per_second": 74.535,
-      "eval_steps_per_second": 4.861,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.69862365722656,
-      "eval_runtime": 0.6011,
-      "eval_samples_per_second": 76.52,
-      "eval_steps_per_second": 4.99,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.00025,
-      "loss": 113.364,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.47984313964844,
-      "eval_runtime": 0.5961,
-      "eval_samples_per_second": 77.162,
-      "eval_steps_per_second": 5.032,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.23371887207031,
-      "eval_runtime": 0.5811,
-      "eval_samples_per_second": 79.156,
-      "eval_steps_per_second": 5.162,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.82231140136719,
-      "eval_runtime": 0.6192,
-      "eval_samples_per_second": 74.295,
-      "eval_steps_per_second": 4.845,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.000225,
-      "loss": 111.1062,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.57879638671875,
-      "eval_runtime": 0.6086,
-      "eval_samples_per_second": 75.578,
-      "eval_steps_per_second": 4.929,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.4156723022461,
-      "eval_runtime": 0.7142,
-      "eval_samples_per_second": 64.411,
-      "eval_steps_per_second": 4.201,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 112.55355072021484,
-      "eval_runtime": 0.6382,
-      "eval_samples_per_second": 72.082,
-      "eval_steps_per_second": 4.701,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 114.7018,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.70433807373047,
-      "eval_runtime": 0.5881,
-      "eval_samples_per_second": 78.214,
-      "eval_steps_per_second": 5.101,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.65534973144531,
-      "eval_runtime": 0.5961,
-      "eval_samples_per_second": 77.162,
-      "eval_steps_per_second": 5.032,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.61336517333984,
-      "eval_runtime": 0.6682,
-      "eval_samples_per_second": 68.845,
-      "eval_steps_per_second": 4.49,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 0.000175,
-      "loss": 110.4914,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.59801483154297,
-      "eval_runtime": 0.5861,
-      "eval_samples_per_second": 78.481,
-      "eval_steps_per_second": 5.118,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.76158142089844,
-      "eval_runtime": 0.6762,
-      "eval_samples_per_second": 68.03,
-      "eval_steps_per_second": 4.437,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.15796661376953,
-      "eval_runtime": 0.5936,
-      "eval_samples_per_second": 77.488,
-      "eval_steps_per_second": 5.054,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 0.00015,
-      "loss": 110.734,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.71080780029297,
-      "eval_runtime": 0.6126,
-      "eval_samples_per_second": 75.084,
-      "eval_steps_per_second": 4.897,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 111.52064514160156,
-      "eval_runtime": 0.5926,
-      "eval_samples_per_second": 77.619,
-      "eval_steps_per_second": 5.062,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.000125,
-      "loss": 111.3772,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 110.88188171386719,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.517,
-      "eval_steps_per_second": 4.925,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 110.802490234375,
-      "eval_runtime": 0.6172,
-      "eval_samples_per_second": 74.536,
-      "eval_steps_per_second": 4.861,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 110.3514633178711,
-      "eval_runtime": 0.5981,
-      "eval_samples_per_second": 76.906,
-      "eval_steps_per_second": 5.016,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 9.999999999999999e-05,
-      "loss": 111.2973,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 110.23866271972656,
-      "eval_runtime": 0.6086,
-      "eval_samples_per_second": 75.578,
-      "eval_steps_per_second": 4.929,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.80725860595703,
-      "eval_runtime": 0.6562,
-      "eval_samples_per_second": 70.104,
-      "eval_steps_per_second": 4.572,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.82267761230469,
-      "eval_runtime": 0.5876,
-      "eval_samples_per_second": 78.279,
-      "eval_steps_per_second": 5.105,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 7.5e-05,
-      "loss": 110.7135,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.60858154296875,
-      "eval_runtime": 0.6076,
-      "eval_samples_per_second": 75.702,
-      "eval_steps_per_second": 4.937,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.5834732055664,
-      "eval_runtime": 0.5922,
-      "eval_samples_per_second": 77.683,
-      "eval_steps_per_second": 5.066,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.5829849243164,
-      "eval_runtime": 0.6041,
-      "eval_samples_per_second": 76.142,
-      "eval_steps_per_second": 4.966,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 4.9999999999999996e-05,
-      "loss": 109.1264,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.16484832763672,
-      "eval_runtime": 0.5956,
-      "eval_samples_per_second": 77.228,
-      "eval_steps_per_second": 5.037,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.06578063964844,
-      "eval_runtime": 0.6146,
-      "eval_samples_per_second": 74.84,
-      "eval_steps_per_second": 4.881,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.2845687866211,
-      "eval_runtime": 0.6191,
-      "eval_samples_per_second": 74.297,
-      "eval_steps_per_second": 4.845,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 2.4999999999999998e-05,
-      "loss": 110.2885,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.02674865722656,
-      "eval_runtime": 0.5961,
-      "eval_samples_per_second": 77.162,
-      "eval_steps_per_second": 5.032,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 109.09725189208984,
-      "eval_runtime": 0.6096,
-      "eval_samples_per_second": 75.454,
-      "eval_steps_per_second": 4.921,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.87687683105469,
-      "eval_runtime": 0.6301,
-      "eval_samples_per_second": 73.0,
-      "eval_steps_per_second": 4.761,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 110.1122,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 108.8197250366211,
-      "eval_runtime": 0.7547,
-      "eval_samples_per_second": 60.953,
-      "eval_steps_per_second": 3.975,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 111.46265258789063,
-      "train_runtime": 130.8746,
-      "train_samples_per_second": 65.1,
-      "train_steps_per_second": 0.917
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.88832092285156,
+      "eval_runtime": 0.6507,
+      "eval_samples_per_second": 70.697,
+      "eval_steps_per_second": 4.611,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.88676452636719,
+      "eval_runtime": 0.5971,
+      "eval_samples_per_second": 77.035,
+      "eval_steps_per_second": 5.024,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 114.1606,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.88513946533203,
+      "eval_runtime": 0.6292,
+      "eval_samples_per_second": 73.113,
+      "eval_steps_per_second": 4.768,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8846206665039,
+      "eval_runtime": 0.6036,
+      "eval_samples_per_second": 76.204,
+      "eval_steps_per_second": 4.97,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.88324737548828,
+      "eval_runtime": 0.6196,
+      "eval_samples_per_second": 74.236,
+      "eval_steps_per_second": 4.841,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 113.5172,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8808364868164,
+      "eval_runtime": 0.6092,
+      "eval_samples_per_second": 75.515,
+      "eval_steps_per_second": 4.925,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.87947082519531,
+      "eval_runtime": 0.6912,
+      "eval_samples_per_second": 66.555,
+      "eval_steps_per_second": 4.341,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.87939453125,
+      "eval_runtime": 0.6041,
+      "eval_samples_per_second": 76.14,
+      "eval_steps_per_second": 4.966,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 111.7557,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.87659454345703,
+      "eval_runtime": 0.6201,
+      "eval_samples_per_second": 74.177,
+      "eval_steps_per_second": 4.838,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.87474822998047,
+      "eval_runtime": 0.6842,
+      "eval_samples_per_second": 67.234,
+      "eval_steps_per_second": 4.385,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.87353515625,
+      "eval_runtime": 0.6136,
+      "eval_samples_per_second": 74.962,
+      "eval_steps_per_second": 4.889,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 115.9434,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8711929321289,
+      "eval_runtime": 0.5921,
+      "eval_samples_per_second": 77.685,
+      "eval_steps_per_second": 5.066,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.86994934082031,
+      "eval_runtime": 0.6321,
+      "eval_samples_per_second": 72.768,
+      "eval_steps_per_second": 4.746,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.86713409423828,
+      "eval_runtime": 0.6061,
+      "eval_samples_per_second": 75.891,
+      "eval_steps_per_second": 4.949,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 112.3427,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8606948852539,
+      "eval_runtime": 0.6062,
+      "eval_samples_per_second": 75.889,
+      "eval_steps_per_second": 4.949,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8567123413086,
+      "eval_runtime": 0.5916,
+      "eval_samples_per_second": 77.75,
+      "eval_steps_per_second": 5.071,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.85698699951172,
+      "eval_runtime": 0.6427,
+      "eval_samples_per_second": 71.578,
+      "eval_steps_per_second": 4.668,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 1.25e-05,
+      "loss": 113.2123,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.85321807861328,
+      "eval_runtime": 0.6122,
+      "eval_samples_per_second": 75.144,
+      "eval_steps_per_second": 4.901,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.85108184814453,
+      "eval_runtime": 0.6031,
+      "eval_samples_per_second": 76.268,
+      "eval_steps_per_second": 4.974,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 114.0835,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.85003662109375,
+      "eval_runtime": 0.6361,
+      "eval_samples_per_second": 72.311,
+      "eval_steps_per_second": 4.716,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.84687805175781,
+      "eval_runtime": 0.6076,
+      "eval_samples_per_second": 75.702,
+      "eval_steps_per_second": 4.937,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.84497833251953,
+      "eval_runtime": 0.5921,
+      "eval_samples_per_second": 77.683,
+      "eval_steps_per_second": 5.066,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 114.5528,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.84217834472656,
+      "eval_runtime": 0.6551,
+      "eval_samples_per_second": 70.213,
+      "eval_steps_per_second": 4.579,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.83406829833984,
+      "eval_runtime": 0.5936,
+      "eval_samples_per_second": 77.488,
+      "eval_steps_per_second": 5.054,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.83149719238281,
+      "eval_runtime": 0.6102,
+      "eval_samples_per_second": 75.391,
+      "eval_steps_per_second": 4.917,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 6.25e-06,
+      "loss": 114.5432,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.82682037353516,
+      "eval_runtime": 0.6111,
+      "eval_samples_per_second": 75.27,
+      "eval_steps_per_second": 4.909,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.82469940185547,
+      "eval_runtime": 0.6141,
+      "eval_samples_per_second": 74.902,
+      "eval_steps_per_second": 4.885,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.82501220703125,
+      "eval_runtime": 0.6132,
+      "eval_samples_per_second": 75.022,
+      "eval_steps_per_second": 4.893,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 112.7825,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8207015991211,
+      "eval_runtime": 0.6082,
+      "eval_samples_per_second": 75.639,
+      "eval_steps_per_second": 4.933,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8154525756836,
+      "eval_runtime": 0.6136,
+      "eval_samples_per_second": 74.962,
+      "eval_steps_per_second": 4.889,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.81825256347656,
+      "eval_runtime": 0.6111,
+      "eval_samples_per_second": 75.27,
+      "eval_steps_per_second": 4.909,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 2.0833333333333334e-06,
+      "loss": 114.2965,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.8187484741211,
+      "eval_runtime": 0.6492,
+      "eval_samples_per_second": 70.86,
+      "eval_steps_per_second": 4.621,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.81865692138672,
+      "eval_runtime": 0.6381,
+      "eval_samples_per_second": 72.084,
+      "eval_steps_per_second": 4.701,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.81236267089844,
+      "eval_runtime": 0.6046,
+      "eval_samples_per_second": 76.078,
+      "eval_steps_per_second": 4.962,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 114.0925,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.81463623046875,
+      "eval_runtime": 0.6637,
+      "eval_samples_per_second": 69.313,
+      "eval_steps_per_second": 4.52,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 113.7735809326172,
+      "train_runtime": 129.8431,
+      "train_samples_per_second": 65.618,
+      "train_steps_per_second": 0.924
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:100a825d3108f278285976d62db25b16e7f4cdd291fd2ff62433ee3fe956739f
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:15dffc887f0abc9caee2e18a2b30612e3655124e57b6e83dea493f5517e66aea
 size 4728