End of training

Browse files

Files changed (12) hide show

README.md +42 -42
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Dec02_10-01-43_DESKTOP-SKBE9FB/events.out.tfevents.1733155304.DESKTOP-SKBE9FB.18252.0 +3 -0
runs/Dec02_10-02-56_DESKTOP-SKBE9FB/events.out.tfevents.1733155376.DESKTOP-SKBE9FB.19304.0 +3 -0
runs/Dec02_10-04-12_DESKTOP-SKBE9FB/events.out.tfevents.1733155453.DESKTOP-SKBE9FB.11208.0 +3 -0
runs/Dec02_10-05-34_DESKTOP-SKBE9FB/events.out.tfevents.1733155534.DESKTOP-SKBE9FB.4368.0 +3 -0
runs/Dec02_10-05-34_DESKTOP-SKBE9FB/events.out.tfevents.1733155669.DESKTOP-SKBE9FB.4368.1 +3 -0
train_results.json +4 -4
trainer_state.json +203 -203
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.6956521739130435
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 250784738141274112.0000
-- Accuracy: 0.6957
 ## Model description
@@ -51,7 +51,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.00055
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -59,48 +59,48 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 40
 ### Training results
-| Training Loss           | Epoch | Step | Validation Loss         | Accuracy |
-|:-----------------------:|:-----:|:----:|:-----------------------:|:--------:|
-| No log                  | 0.86  | 3    | 250784738141274112.0000 | 0.4783   |
-| No log                  | 2.0   | 7    | 250784738141274112.0000 | 0.5435   |
-| 245863059525363296.0000 | 2.86  | 10   | 250784738141274112.0000 | 0.6087   |
-| 245863059525363296.0000 | 4.0   | 14   | 250784738141274112.0000 | 0.6304   |
-| 245863059525363296.0000 | 4.86  | 17   | 250784738141274112.0000 | 0.6087   |
-| 257399163011779776.0000 | 6.0   | 21   | 250784738141274112.0000 | 0.6087   |
-| 257399163011779776.0000 | 6.86  | 24   | 250784738141274112.0000 | 0.6304   |
-| 257399163011779776.0000 | 8.0   | 28   | 250784738141274112.0000 | 0.6957   |
-| 289123454471372800.0000 | 8.86  | 31   | 250784738141274112.0000 | 0.6739   |
-| 289123454471372800.0000 | 10.0  | 35   | 250784738141274112.0000 | 0.6739   |
-| 289123454471372800.0000 | 10.86 | 38   | 250784738141274112.0000 | 0.6522   |
-| 213417804547542208.0000 | 12.0  | 42   | 250784738141274112.0000 | 0.5435   |
-| 213417804547542208.0000 | 12.86 | 45   | 250784738141274112.0000 | 0.5652   |
-| 213417804547542208.0000 | 14.0  | 49   | 250784738141274112.0000 | 0.6739   |
-| 278308328247079744.0000 | 14.86 | 52   | 250784738141274112.0000 | 0.6087   |
-| 278308328247079744.0000 | 16.0  | 56   | 250784738141274112.0000 | 0.5870   |
-| 278308328247079744.0000 | 16.86 | 59   | 250784738141274112.0000 | 0.5870   |
-| 262446278724550656.0000 | 18.0  | 63   | 250784738141274112.0000 | 0.5652   |
-| 262446278724550656.0000 | 18.86 | 66   | 250784738141274112.0000 | 0.5435   |
-| 246584064275277408.0000 | 20.0  | 70   | 250784738141274112.0000 | 0.5652   |
-| 246584064275277408.0000 | 20.86 | 73   | 250784738141274112.0000 | 0.6087   |
-| 246584064275277408.0000 | 22.0  | 77   | 250784738141274112.0000 | 0.6304   |
-| 237932062251889472.0000 | 22.86 | 80   | 250784738141274112.0000 | 0.6304   |
-| 237932062251889472.0000 | 24.0  | 84   | 250784738141274112.0000 | 0.6522   |
-| 237932062251889472.0000 | 24.86 | 87   | 250784738141274112.0000 | 0.6957   |
-| 237932007276308064.0000 | 26.0  | 91   | 250784738141274112.0000 | 0.6739   |
-| 237932007276308064.0000 | 26.86 | 94   | 250784738141274112.0000 | 0.6739   |
-| 237932007276308064.0000 | 28.0  | 98   | 250784738141274112.0000 | 0.6739   |
-| 269656271248110400.0000 | 28.86 | 101  | 250784738141274112.0000 | 0.6739   |
-| 269656271248110400.0000 | 30.0  | 105  | 250784738141274112.0000 | 0.6739   |
-| 269656271248110400.0000 | 30.86 | 108  | 250784738141274112.0000 | 0.6739   |
-| 242258008288002048.0000 | 32.0  | 112  | 250784738141274112.0000 | 0.6739   |
-| 242258008288002048.0000 | 32.86 | 115  | 250784738141274112.0000 | 0.6739   |
-| 242258008288002048.0000 | 34.0  | 119  | 250784738141274112.0000 | 0.6739   |
-| 245863059525363296.0000 | 34.29 | 120  | 250784738141274112.0000 | 0.6739   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7391304347826086
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8766
+- Accuracy: 0.7391
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0003
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.15
 - num_epochs: 40
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.86  | 3    | 1.3860          | 0.3261   |
+| No log        | 2.0   | 7    | 1.3830          | 0.5      |
+| 1.3842        | 2.86  | 10   | 1.3756          | 0.5870   |
+| 1.3842        | 4.0   | 14   | 1.3494          | 0.6087   |
+| 1.3842        | 4.86  | 17   | 1.3039          | 0.6522   |
+| 1.3427        | 6.0   | 21   | 1.1962          | 0.6522   |
+| 1.3427        | 6.86  | 24   | 1.1310          | 0.6739   |
+| 1.3427        | 8.0   | 28   | 1.0778          | 0.6522   |
+| 1.1837        | 8.86  | 31   | 1.0276          | 0.6957   |
+| 1.1837        | 10.0  | 35   | 0.9928          | 0.7174   |
+| 1.1837        | 10.86 | 38   | 0.9710          | 0.7174   |
+| 1.0531        | 12.0  | 42   | 0.9735          | 0.6739   |
+| 1.0531        | 12.86 | 45   | 0.9385          | 0.6522   |
+| 1.0531        | 14.0  | 49   | 0.9601          | 0.6739   |
+| 0.9883        | 14.86 | 52   | 0.9369          | 0.6739   |
+| 0.9883        | 16.0  | 56   | 0.8928          | 0.6739   |
+| 0.9883        | 16.86 | 59   | 0.8825          | 0.6739   |
+| 0.8632        | 18.0  | 63   | 0.8743          | 0.6739   |
+| 0.8632        | 18.86 | 66   | 0.8479          | 0.6739   |
+| 0.8732        | 20.0  | 70   | 0.8341          | 0.6739   |
+| 0.8732        | 20.86 | 73   | 0.8134          | 0.7174   |
+| 0.8732        | 22.0  | 77   | 0.8845          | 0.6739   |
+| 0.7524        | 22.86 | 80   | 0.9037          | 0.6522   |
+| 0.7524        | 24.0  | 84   | 0.8921          | 0.6304   |
+| 0.7524        | 24.86 | 87   | 0.8766          | 0.7391   |
+| 0.6843        | 26.0  | 91   | 0.8707          | 0.7391   |
+| 0.6843        | 26.86 | 94   | 0.8922          | 0.7391   |
+| 0.6843        | 28.0  | 98   | 0.8862          | 0.6957   |
+| 0.7112        | 28.86 | 101  | 0.8954          | 0.7391   |
+| 0.7112        | 30.0  | 105  | 0.9228          | 0.6957   |
+| 0.7112        | 30.86 | 108  | 0.9173          | 0.6957   |
+| 0.6885        | 32.0  | 112  | 0.9318          | 0.6957   |
+| 0.6885        | 32.86 | 115  | 0.9049          | 0.7391   |
+| 0.6885        | 34.0  | 119  | 0.9157          | 0.7174   |
+| 0.6734        | 34.29 | 120  | 0.9051          | 0.7391   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.6956521739130435,
-    "eval_loss": 2.507847381412741e+17,
-    "eval_runtime": 0.5996,
-    "eval_samples_per_second": 76.712,
-    "eval_steps_per_second": 5.003,
-    "train_loss": 2.522319634493866e+17,
-    "train_runtime": 128.6883,
-    "train_samples_per_second": 66.206,
-    "train_steps_per_second": 0.932
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.7391304347826086,
+    "eval_loss": 0.8765698075294495,
+    "eval_runtime": 0.7857,
+    "eval_samples_per_second": 58.547,
+    "eval_steps_per_second": 3.818,
+    "train_loss": 0.9331819852193196,
+    "train_runtime": 134.062,
+    "train_samples_per_second": 63.553,
+    "train_steps_per_second": 0.895
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.6956521739130435,
-    "eval_loss": 2.507847381412741e+17,
-    "eval_runtime": 0.5996,
-    "eval_samples_per_second": 76.712,
-    "eval_steps_per_second": 5.003
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.7391304347826086,
+    "eval_loss": 0.8765698075294495,
+    "eval_runtime": 0.7857,
+    "eval_samples_per_second": 58.547,
+    "eval_steps_per_second": 3.818
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff605f9bb57030587e37bef680db6a91adb5369cfdb0a2ef6dc3d25a4db1f09f
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e7622952d9d5948abcd9a1304b7d9404f4ee9485c6f5935c68e0310ec4fba9d
 size 12203648

runs/Dec02_10-01-43_DESKTOP-SKBE9FB/events.out.tfevents.1733155304.DESKTOP-SKBE9FB.18252.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e103f395fdf8d038c6af9200f4257192873d42adf715d86c8926a02ca6feae41
+size 8175

runs/Dec02_10-02-56_DESKTOP-SKBE9FB/events.out.tfevents.1733155376.DESKTOP-SKBE9FB.19304.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82f0985f287070c4698d16d679c5bf80b853f6ad422d458994f1e611bc723543
+size 9280

runs/Dec02_10-04-12_DESKTOP-SKBE9FB/events.out.tfevents.1733155453.DESKTOP-SKBE9FB.11208.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b08f1a93fc11abdde08a4ff883043583a452bc4cd8dbaf4dc26fc7f108b5bbfe
+size 8963

runs/Dec02_10-05-34_DESKTOP-SKBE9FB/events.out.tfevents.1733155534.DESKTOP-SKBE9FB.4368.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bab5687bef8bf468ac88e0e83926b6dbbd6ec294dd19c8c94533d518621da889
+size 17835

runs/Dec02_10-05-34_DESKTOP-SKBE9FB/events.out.tfevents.1733155669.DESKTOP-SKBE9FB.4368.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6e7c88f25acbdd372c15f7363a18b1293a1391e3bc071208b5ffd34b1539b60
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 2.522319634493866e+17,
-    "train_runtime": 128.6883,
-    "train_samples_per_second": 66.206,
-    "train_steps_per_second": 0.932
 }

 {
     "epoch": 34.29,
+    "train_loss": 0.9331819852193196,
+    "train_runtime": 134.062,
+    "train_samples_per_second": 63.553,
+    "train_steps_per_second": 0.895
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.6956521739130435,
-  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-28",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
@@ -10,399 +10,399 @@
   "log_history": [
     {
       "epoch": 0.86,
-      "eval_accuracy": 0.4782608695652174,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6662,
-      "eval_samples_per_second": 69.052,
-      "eval_steps_per_second": 4.503,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5434782608695652,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6131,
-      "eval_samples_per_second": 75.024,
-      "eval_steps_per_second": 4.893,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 0.0004583333333333334,
-      "loss": 2.458630595253633e+17,
       "step": 10
     },
     {
       "epoch": 2.86,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6182,
-      "eval_samples_per_second": 74.415,
-      "eval_steps_per_second": 4.853,
       "step": 10
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 74.177,
-      "eval_steps_per_second": 4.838,
       "step": 14
     },
     {
       "epoch": 4.86,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6186,
-      "eval_samples_per_second": 74.356,
-      "eval_steps_per_second": 4.849,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.0005092592592592593,
-      "loss": 2.5739916301177978e+17,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6116,
-      "eval_samples_per_second": 75.207,
-      "eval_steps_per_second": 4.905,
       "step": 21
     },
     {
       "epoch": 6.86,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6236,
-      "eval_samples_per_second": 73.76,
-      "eval_steps_per_second": 4.81,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6072,
-      "eval_samples_per_second": 75.764,
-      "eval_steps_per_second": 4.941,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.0004583333333333334,
-      "loss": 2.891234544713728e+17,
       "step": 30
     },
     {
       "epoch": 8.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 74.177,
-      "eval_steps_per_second": 4.838,
       "step": 31
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6056,
-      "eval_samples_per_second": 75.952,
-      "eval_steps_per_second": 4.953,
       "step": 35
     },
     {
       "epoch": 10.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6161,
-      "eval_samples_per_second": 74.658,
-      "eval_steps_per_second": 4.869,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.00040740740740740744,
-      "loss": 2.134178045475422e+17,
       "step": 40
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.5434782608695652,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6192,
-      "eval_samples_per_second": 74.294,
-      "eval_steps_per_second": 4.845,
       "step": 42
     },
     {
       "epoch": 12.86,
-      "eval_accuracy": 0.5652173913043478,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6056,
-      "eval_samples_per_second": 75.952,
-      "eval_steps_per_second": 4.953,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6272,
-      "eval_samples_per_second": 73.346,
-      "eval_steps_per_second": 4.783,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 0.0003564814814814815,
-      "loss": 2.7830832824707974e+17,
       "step": 50
     },
     {
       "epoch": 14.86,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6261,
-      "eval_samples_per_second": 73.466,
-      "eval_steps_per_second": 4.791,
       "step": 52
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.5869565217391305,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6111,
-      "eval_samples_per_second": 75.27,
-      "eval_steps_per_second": 4.909,
       "step": 56
     },
     {
       "epoch": 16.86,
-      "eval_accuracy": 0.5869565217391305,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6977,
-      "eval_samples_per_second": 65.934,
-      "eval_steps_per_second": 4.3,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 0.0003055555555555556,
-      "loss": 2.6244627872455066e+17,
       "step": 60
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.5652173913043478,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.5916,
-      "eval_samples_per_second": 77.75,
-      "eval_steps_per_second": 5.071,
       "step": 63
     },
     {
       "epoch": 18.86,
-      "eval_accuracy": 0.5434782608695652,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6141,
-      "eval_samples_per_second": 74.902,
-      "eval_steps_per_second": 4.885,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.00025462962962962966,
-      "loss": 2.465840642752774e+17,
       "step": 70
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.5652173913043478,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.5986,
-      "eval_samples_per_second": 76.841,
-      "eval_steps_per_second": 5.011,
       "step": 70
     },
     {
       "epoch": 20.86,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6411,
-      "eval_samples_per_second": 71.747,
-      "eval_steps_per_second": 4.679,
       "step": 73
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 74.177,
-      "eval_steps_per_second": 4.838,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 0.00020370370370370372,
-      "loss": 2.3793206225188947e+17,
       "step": 80
     },
     {
       "epoch": 22.86,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6112,
-      "eval_samples_per_second": 75.268,
-      "eval_steps_per_second": 4.909,
       "step": 80
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6371,
-      "eval_samples_per_second": 72.197,
-      "eval_steps_per_second": 4.709,
       "step": 84
     },
     {
       "epoch": 24.86,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6086,
-      "eval_samples_per_second": 75.578,
-      "eval_steps_per_second": 4.929,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 0.0001527777777777778,
-      "loss": 2.3793200727630806e+17,
       "step": 90
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6036,
-      "eval_samples_per_second": 76.204,
-      "eval_steps_per_second": 4.97,
       "step": 91
     },
     {
       "epoch": 26.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6431,
-      "eval_samples_per_second": 71.524,
-      "eval_steps_per_second": 4.665,
       "step": 94
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6002,
-      "eval_samples_per_second": 76.647,
-      "eval_steps_per_second": 4.999,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 0.00010185185185185186,
-      "loss": 2.696562712481104e+17,
       "step": 100
     },
     {
       "epoch": 28.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.5951,
-      "eval_samples_per_second": 77.294,
-      "eval_steps_per_second": 5.041,
       "step": 101
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6152,
-      "eval_samples_per_second": 74.778,
-      "eval_steps_per_second": 4.877,
       "step": 105
     },
     {
       "epoch": 30.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6361,
-      "eval_samples_per_second": 72.311,
-      "eval_steps_per_second": 4.716,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 5.092592592592593e-05,
-      "loss": 2.4225800828800205e+17,
       "step": 110
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6477,
-      "eval_samples_per_second": 71.026,
-      "eval_steps_per_second": 4.632,
       "step": 112
     },
     {
       "epoch": 32.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6032,
-      "eval_samples_per_second": 76.266,
-      "eval_steps_per_second": 4.974,
       "step": 115
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6062,
-      "eval_samples_per_second": 75.888,
-      "eval_steps_per_second": 4.949,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 2.458630595253633e+17,
       "step": 120
     },
     {
       "epoch": 34.29,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 2.507847381412741e+17,
-      "eval_runtime": 0.6181,
-      "eval_samples_per_second": 74.417,
-      "eval_steps_per_second": 4.853,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 2.522319634493866e+17,
-      "train_runtime": 128.6883,
-      "train_samples_per_second": 66.206,
-      "train_steps_per_second": 0.932
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.7391304347826086,
+  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-87",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
   "log_history": [
     {
       "epoch": 0.86,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.3860292434692383,
+      "eval_runtime": 0.6541,
+      "eval_samples_per_second": 70.321,
+      "eval_steps_per_second": 4.586,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.383039951324463,
+      "eval_runtime": 0.6141,
+      "eval_samples_per_second": 74.902,
+      "eval_steps_per_second": 4.885,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 1.3842,
       "step": 10
     },
     {
       "epoch": 2.86,
+      "eval_accuracy": 0.5869565217391305,
+      "eval_loss": 1.3756428956985474,
+      "eval_runtime": 0.6407,
+      "eval_samples_per_second": 71.802,
+      "eval_steps_per_second": 4.683,
       "step": 10
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6086956521739131,
+      "eval_loss": 1.3493651151657104,
+      "eval_runtime": 0.5981,
+      "eval_samples_per_second": 76.904,
+      "eval_steps_per_second": 5.015,
       "step": 14
     },
     {
       "epoch": 4.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 1.303892731666565,
+      "eval_runtime": 0.6221,
+      "eval_samples_per_second": 73.938,
+      "eval_steps_per_second": 4.822,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 0.0002941176470588235,
+      "loss": 1.3427,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 1.1961779594421387,
+      "eval_runtime": 0.6102,
+      "eval_samples_per_second": 75.391,
+      "eval_steps_per_second": 4.917,
       "step": 21
     },
     {
       "epoch": 6.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 1.1310076713562012,
+      "eval_runtime": 0.6321,
+      "eval_samples_per_second": 72.769,
+      "eval_steps_per_second": 4.746,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 1.07782781124115,
+      "eval_runtime": 0.5902,
+      "eval_samples_per_second": 77.946,
+      "eval_steps_per_second": 5.083,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 0.00026470588235294115,
+      "loss": 1.1837,
       "step": 30
     },
     {
       "epoch": 8.86,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 1.027555227279663,
+      "eval_runtime": 0.6977,
+      "eval_samples_per_second": 65.934,
+      "eval_steps_per_second": 4.3,
       "step": 31
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9927520751953125,
+      "eval_runtime": 0.6266,
+      "eval_samples_per_second": 73.407,
+      "eval_steps_per_second": 4.787,
       "step": 35
     },
     {
       "epoch": 10.86,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9709724187850952,
+      "eval_runtime": 0.6331,
+      "eval_samples_per_second": 72.653,
+      "eval_steps_per_second": 4.738,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 0.0002352941176470588,
+      "loss": 1.0531,
       "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9734796285629272,
+      "eval_runtime": 0.6324,
+      "eval_samples_per_second": 72.735,
+      "eval_steps_per_second": 4.744,
       "step": 42
     },
     {
       "epoch": 12.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9384742379188538,
+      "eval_runtime": 0.6201,
+      "eval_samples_per_second": 74.177,
+      "eval_steps_per_second": 4.838,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9601091146469116,
+      "eval_runtime": 0.6196,
+      "eval_samples_per_second": 74.236,
+      "eval_steps_per_second": 4.841,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 0.00020588235294117645,
+      "loss": 0.9883,
       "step": 50
     },
     {
       "epoch": 14.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9368714094161987,
+      "eval_runtime": 0.5906,
+      "eval_samples_per_second": 77.882,
+      "eval_steps_per_second": 5.079,
       "step": 52
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8928157687187195,
+      "eval_runtime": 0.6201,
+      "eval_samples_per_second": 74.177,
+      "eval_steps_per_second": 4.838,
       "step": 56
     },
     {
       "epoch": 16.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8825035691261292,
+      "eval_runtime": 0.6252,
+      "eval_samples_per_second": 73.581,
+      "eval_steps_per_second": 4.799,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 0.0001764705882352941,
+      "loss": 0.8632,
       "step": 60
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8742826581001282,
+      "eval_runtime": 0.6216,
+      "eval_samples_per_second": 73.997,
+      "eval_steps_per_second": 4.826,
       "step": 63
     },
     {
       "epoch": 18.86,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8478592038154602,
+      "eval_runtime": 0.6091,
+      "eval_samples_per_second": 75.517,
+      "eval_steps_per_second": 4.925,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.00014705882352941175,
+      "loss": 0.8732,
       "step": 70
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.834061324596405,
+      "eval_runtime": 0.6332,
+      "eval_samples_per_second": 72.651,
+      "eval_steps_per_second": 4.738,
       "step": 70
     },
     {
       "epoch": 20.86,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.8133650422096252,
+      "eval_runtime": 0.7277,
+      "eval_samples_per_second": 63.215,
+      "eval_steps_per_second": 4.123,
       "step": 73
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.8844852447509766,
+      "eval_runtime": 0.6501,
+      "eval_samples_per_second": 70.753,
+      "eval_steps_per_second": 4.614,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 0.0001176470588235294,
+      "loss": 0.7524,
       "step": 80
     },
     {
       "epoch": 22.86,
+      "eval_accuracy": 0.6521739130434783,
+      "eval_loss": 0.9037047624588013,
+      "eval_runtime": 0.6262,
+      "eval_samples_per_second": 73.464,
+      "eval_steps_per_second": 4.791,
       "step": 80
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.6304347826086957,
+      "eval_loss": 0.8921377062797546,
+      "eval_runtime": 0.6157,
+      "eval_samples_per_second": 74.718,
+      "eval_steps_per_second": 4.873,
       "step": 84
     },
     {
       "epoch": 24.86,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8765698075294495,
+      "eval_runtime": 0.6211,
+      "eval_samples_per_second": 74.058,
+      "eval_steps_per_second": 4.83,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 8.823529411764705e-05,
+      "loss": 0.6843,
       "step": 90
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8706851005554199,
+      "eval_runtime": 0.6322,
+      "eval_samples_per_second": 72.766,
+      "eval_steps_per_second": 4.746,
       "step": 91
     },
     {
       "epoch": 26.86,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8922207951545715,
+      "eval_runtime": 0.6461,
+      "eval_samples_per_second": 71.192,
+      "eval_steps_per_second": 4.643,
       "step": 94
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8861702084541321,
+      "eval_runtime": 0.6096,
+      "eval_samples_per_second": 75.454,
+      "eval_steps_per_second": 4.921,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 5.88235294117647e-05,
+      "loss": 0.7112,
       "step": 100
     },
     {
       "epoch": 28.86,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8954079747200012,
+      "eval_runtime": 0.6282,
+      "eval_samples_per_second": 73.23,
+      "eval_steps_per_second": 4.776,
       "step": 101
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.9228313565254211,
+      "eval_runtime": 0.6091,
+      "eval_samples_per_second": 75.517,
+      "eval_steps_per_second": 4.925,
       "step": 105
     },
     {
       "epoch": 30.86,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.9172708988189697,
+      "eval_runtime": 0.6367,
+      "eval_samples_per_second": 72.253,
+      "eval_steps_per_second": 4.712,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 2.941176470588235e-05,
+      "loss": 0.6885,
       "step": 110
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.9317991137504578,
+      "eval_runtime": 0.6256,
+      "eval_samples_per_second": 73.524,
+      "eval_steps_per_second": 4.795,
       "step": 112
     },
     {
       "epoch": 32.86,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9049164056777954,
+      "eval_runtime": 0.6101,
+      "eval_samples_per_second": 75.393,
+      "eval_steps_per_second": 4.917,
       "step": 115
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.915714681148529,
+      "eval_runtime": 0.7362,
+      "eval_samples_per_second": 62.485,
+      "eval_steps_per_second": 4.075,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 0.6734,
       "step": 120
     },
     {
       "epoch": 34.29,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.9050928354263306,
+      "eval_runtime": 0.7057,
+      "eval_samples_per_second": 65.186,
+      "eval_steps_per_second": 4.251,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 0.9331819852193196,
+      "train_runtime": 134.062,
+      "train_samples_per_second": 63.553,
+      "train_steps_per_second": 0.895
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16711f63ef853b11d9c837e60ce87d83693556c4b754b9d71934c0fff892132
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7673fec7b007a50d6f8a3168a28dc0e69f6038efdf738b3c08f114c5ccf36e4
 size 4728