End of training

Browse files

Files changed (11) hide show

README.md +38 -39
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Dec02_10-09-39_DESKTOP-SKBE9FB/events.out.tfevents.1733155780.DESKTOP-SKBE9FB.15472.0 +3 -0
runs/Dec02_10-11-14_DESKTOP-SKBE9FB/events.out.tfevents.1733155875.DESKTOP-SKBE9FB.14404.0 +3 -0
runs/Dec02_10-12-43_DESKTOP-SKBE9FB/events.out.tfevents.1733155964.DESKTOP-SKBE9FB.12184.0 +3 -0
runs/Dec02_10-12-43_DESKTOP-SKBE9FB/events.out.tfevents.1733156096.DESKTOP-SKBE9FB.12184.1 +3 -0
train_results.json +4 -4
trainer_state.json +204 -204
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7391304347826086
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8766
-- Accuracy: 0.7391
 ## Model description
@@ -59,48 +59,47 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.15
 - num_epochs: 40
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 1.3860          | 0.3261   |
-| No log        | 2.0   | 7    | 1.3830          | 0.5      |
-| 1.3842        | 2.86  | 10   | 1.3756          | 0.5870   |
-| 1.3842        | 4.0   | 14   | 1.3494          | 0.6087   |
-| 1.3842        | 4.86  | 17   | 1.3039          | 0.6522   |
-| 1.3427        | 6.0   | 21   | 1.1962          | 0.6522   |
-| 1.3427        | 6.86  | 24   | 1.1310          | 0.6739   |
-| 1.3427        | 8.0   | 28   | 1.0778          | 0.6522   |
-| 1.1837        | 8.86  | 31   | 1.0276          | 0.6957   |
-| 1.1837        | 10.0  | 35   | 0.9928          | 0.7174   |
-| 1.1837        | 10.86 | 38   | 0.9710          | 0.7174   |
-| 1.0531        | 12.0  | 42   | 0.9735          | 0.6739   |
-| 1.0531        | 12.86 | 45   | 0.9385          | 0.6522   |
-| 1.0531        | 14.0  | 49   | 0.9601          | 0.6739   |
-| 0.9883        | 14.86 | 52   | 0.9369          | 0.6739   |
-| 0.9883        | 16.0  | 56   | 0.8928          | 0.6739   |
-| 0.9883        | 16.86 | 59   | 0.8825          | 0.6739   |
-| 0.8632        | 18.0  | 63   | 0.8743          | 0.6739   |
-| 0.8632        | 18.86 | 66   | 0.8479          | 0.6739   |
-| 0.8732        | 20.0  | 70   | 0.8341          | 0.6739   |
-| 0.8732        | 20.86 | 73   | 0.8134          | 0.7174   |
-| 0.8732        | 22.0  | 77   | 0.8845          | 0.6739   |
-| 0.7524        | 22.86 | 80   | 0.9037          | 0.6522   |
-| 0.7524        | 24.0  | 84   | 0.8921          | 0.6304   |
-| 0.7524        | 24.86 | 87   | 0.8766          | 0.7391   |
-| 0.6843        | 26.0  | 91   | 0.8707          | 0.7391   |
-| 0.6843        | 26.86 | 94   | 0.8922          | 0.7391   |
-| 0.6843        | 28.0  | 98   | 0.8862          | 0.6957   |
-| 0.7112        | 28.86 | 101  | 0.8954          | 0.7391   |
-| 0.7112        | 30.0  | 105  | 0.9228          | 0.6957   |
-| 0.7112        | 30.86 | 108  | 0.9173          | 0.6957   |
-| 0.6885        | 32.0  | 112  | 0.9318          | 0.6957   |
-| 0.6885        | 32.86 | 115  | 0.9049          | 0.7391   |
-| 0.6885        | 34.0  | 119  | 0.9157          | 0.7174   |
-| 0.6734        | 34.29 | 120  | 0.9051          | 0.7391   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.10869565217391304
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 113.9792
+- Accuracy: 0.1087
 ## Model description
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 40
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.86  | 3    | 113.9792        | 0.1087   |
+| No log        | 2.0   | 7    | 113.9181        | 0.1087   |
+| 114.2395      | 2.86  | 10   | 113.8813        | 0.1087   |
+| 114.2395      | 4.0   | 14   | 113.8116        | 0.1087   |
+| 114.2395      | 4.86  | 17   | 113.6986        | 0.1087   |
+| 113.364       | 6.0   | 21   | 113.4798        | 0.1087   |
+| 113.364       | 6.86  | 24   | 113.2337        | 0.1087   |
+| 113.364       | 8.0   | 28   | 112.8223        | 0.1087   |
+| 111.1062      | 8.86  | 31   | 112.5788        | 0.1087   |
+| 111.1062      | 10.0  | 35   | 112.4157        | 0.1087   |
+| 111.1062      | 10.86 | 38   | 112.5536        | 0.1087   |
+| 114.7018      | 12.0  | 42   | 111.7043        | 0.1087   |
+| 114.7018      | 12.86 | 45   | 111.6553        | 0.1087   |
+| 114.7018      | 14.0  | 49   | 111.6134        | 0.1087   |
+| 110.4914      | 14.86 | 52   | 111.5980        | 0.1087   |
+| 110.4914      | 16.0  | 56   | 111.7616        | 0.1087   |
+| 110.4914      | 16.86 | 59   | 111.1580        | 0.1087   |
+| 110.734       | 18.0  | 63   | 111.7108        | 0.1087   |
+| 110.734       | 18.86 | 66   | 111.5206        | 0.1087   |
+| 111.3772      | 20.0  | 70   | 110.8819        | 0.1087   |
+| 111.3772      | 20.86 | 73   | 110.8025        | 0.1087   |
+| 111.3772      | 22.0  | 77   | 110.3515        | 0.1087   |
+| 111.2973      | 22.86 | 80   | 110.2387        | 0.1087   |
+| 111.2973      | 24.0  | 84   | 109.8073        | 0.1087   |
+| 111.2973      | 24.86 | 87   | 109.8227        | 0.1087   |
+| 110.7135      | 26.0  | 91   | 109.6086        | 0.1087   |
+| 110.7135      | 26.86 | 94   | 109.5835        | 0.1087   |
+| 110.7135      | 28.0  | 98   | 109.5830        | 0.1087   |
+| 109.1264      | 28.86 | 101  | 109.1648        | 0.1087   |
+| 109.1264      | 30.0  | 105  | 109.0658        | 0.1087   |
+| 109.1264      | 30.86 | 108  | 109.2846        | 0.1087   |
+| 110.2885      | 32.0  | 112  | 109.0267        | 0.1087   |
+| 110.2885      | 32.86 | 115  | 109.0973        | 0.1087   |
+| 110.2885      | 34.0  | 119  | 108.8769        | 0.1087   |
+| 110.1122      | 34.29 | 120  | 108.8197        | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.7391304347826086,
-    "eval_loss": 0.8765698075294495,
-    "eval_runtime": 0.7857,
-    "eval_samples_per_second": 58.547,
-    "eval_steps_per_second": 3.818,
-    "train_loss": 0.9331819852193196,
-    "train_runtime": 134.062,
-    "train_samples_per_second": 63.553,
-    "train_steps_per_second": 0.895
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.97916412353516,
+    "eval_runtime": 0.6356,
+    "eval_samples_per_second": 72.367,
+    "eval_steps_per_second": 4.72,
+    "train_loss": 111.46265258789063,
+    "train_runtime": 130.8746,
+    "train_samples_per_second": 65.1,
+    "train_steps_per_second": 0.917
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.7391304347826086,
-    "eval_loss": 0.8765698075294495,
-    "eval_runtime": 0.7857,
-    "eval_samples_per_second": 58.547,
-    "eval_steps_per_second": 3.818
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 113.97916412353516,
+    "eval_runtime": 0.6356,
+    "eval_samples_per_second": 72.367,
+    "eval_steps_per_second": 4.72
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e7622952d9d5948abcd9a1304b7d9404f4ee9485c6f5935c68e0310ec4fba9d
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:9abc21787697a9a072a3f6a188dce8a9ed5c283c0126e8ce76d7e1d332759618
 size 12203648

runs/Dec02_10-09-39_DESKTOP-SKBE9FB/events.out.tfevents.1733155780.DESKTOP-SKBE9FB.15472.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:499624858f90591fe275a867630ac3f702add6a598d0e5f253bf8ea810d4ac9a
+size 11170

runs/Dec02_10-11-14_DESKTOP-SKBE9FB/events.out.tfevents.1733155875.DESKTOP-SKBE9FB.14404.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13abc4eb569aa72db125f30169b415ce89e9cc91d0f85cb0d58b3d99f5d9294e
+size 10853

runs/Dec02_10-12-43_DESKTOP-SKBE9FB/events.out.tfevents.1733155964.DESKTOP-SKBE9FB.12184.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7efed347c11c2976bc1d6c5bb7f97f6fb8b4303f060e0ed9f55edf62a0182b0
+size 17832

runs/Dec02_10-12-43_DESKTOP-SKBE9FB/events.out.tfevents.1733156096.DESKTOP-SKBE9FB.12184.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ceced2ed0f3f021c6b59f435af60422f19009a2a6db7ee0428258920f98655a
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 0.9331819852193196,
-    "train_runtime": 134.062,
-    "train_samples_per_second": 63.553,
-    "train_steps_per_second": 0.895
 }

 {
     "epoch": 34.29,
+    "train_loss": 111.46265258789063,
+    "train_runtime": 130.8746,
+    "train_samples_per_second": 65.1,
+    "train_steps_per_second": 0.917
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.7391304347826086,
-  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-87",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
@@ -10,399 +10,399 @@
   "log_history": [
     {
       "epoch": 0.86,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.3860292434692383,
-      "eval_runtime": 0.6541,
-      "eval_samples_per_second": 70.321,
-      "eval_steps_per_second": 4.586,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5,
-      "eval_loss": 1.383039951324463,
-      "eval_runtime": 0.6141,
-      "eval_samples_per_second": 74.902,
-      "eval_steps_per_second": 4.885,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 0.00016666666666666666,
-      "loss": 1.3842,
       "step": 10
     },
     {
       "epoch": 2.86,
-      "eval_accuracy": 0.5869565217391305,
-      "eval_loss": 1.3756428956985474,
-      "eval_runtime": 0.6407,
-      "eval_samples_per_second": 71.802,
-      "eval_steps_per_second": 4.683,
       "step": 10
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 1.3493651151657104,
-      "eval_runtime": 0.5981,
-      "eval_samples_per_second": 76.904,
-      "eval_steps_per_second": 5.015,
       "step": 14
     },
     {
       "epoch": 4.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 1.303892731666565,
-      "eval_runtime": 0.6221,
-      "eval_samples_per_second": 73.938,
-      "eval_steps_per_second": 4.822,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.0002941176470588235,
-      "loss": 1.3427,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 1.1961779594421387,
-      "eval_runtime": 0.6102,
-      "eval_samples_per_second": 75.391,
-      "eval_steps_per_second": 4.917,
       "step": 21
     },
     {
       "epoch": 6.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 1.1310076713562012,
-      "eval_runtime": 0.6321,
-      "eval_samples_per_second": 72.769,
-      "eval_steps_per_second": 4.746,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 1.07782781124115,
-      "eval_runtime": 0.5902,
-      "eval_samples_per_second": 77.946,
-      "eval_steps_per_second": 5.083,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.00026470588235294115,
-      "loss": 1.1837,
       "step": 30
     },
     {
       "epoch": 8.86,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.027555227279663,
-      "eval_runtime": 0.6977,
-      "eval_samples_per_second": 65.934,
-      "eval_steps_per_second": 4.3,
       "step": 31
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9927520751953125,
-      "eval_runtime": 0.6266,
-      "eval_samples_per_second": 73.407,
-      "eval_steps_per_second": 4.787,
       "step": 35
     },
     {
       "epoch": 10.86,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9709724187850952,
-      "eval_runtime": 0.6331,
-      "eval_samples_per_second": 72.653,
-      "eval_steps_per_second": 4.738,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.0002352941176470588,
-      "loss": 1.0531,
       "step": 40
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9734796285629272,
-      "eval_runtime": 0.6324,
-      "eval_samples_per_second": 72.735,
-      "eval_steps_per_second": 4.744,
       "step": 42
     },
     {
       "epoch": 12.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9384742379188538,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 74.177,
-      "eval_steps_per_second": 4.838,
       "step": 45
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9601091146469116,
-      "eval_runtime": 0.6196,
-      "eval_samples_per_second": 74.236,
-      "eval_steps_per_second": 4.841,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 0.00020588235294117645,
-      "loss": 0.9883,
       "step": 50
     },
     {
       "epoch": 14.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9368714094161987,
-      "eval_runtime": 0.5906,
-      "eval_samples_per_second": 77.882,
-      "eval_steps_per_second": 5.079,
       "step": 52
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8928157687187195,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 74.177,
-      "eval_steps_per_second": 4.838,
       "step": 56
     },
     {
       "epoch": 16.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8825035691261292,
-      "eval_runtime": 0.6252,
-      "eval_samples_per_second": 73.581,
-      "eval_steps_per_second": 4.799,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 0.0001764705882352941,
-      "loss": 0.8632,
       "step": 60
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8742826581001282,
-      "eval_runtime": 0.6216,
-      "eval_samples_per_second": 73.997,
-      "eval_steps_per_second": 4.826,
       "step": 63
     },
     {
       "epoch": 18.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8478592038154602,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.517,
-      "eval_steps_per_second": 4.925,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.00014705882352941175,
-      "loss": 0.8732,
       "step": 70
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.834061324596405,
-      "eval_runtime": 0.6332,
-      "eval_samples_per_second": 72.651,
-      "eval_steps_per_second": 4.738,
       "step": 70
     },
     {
       "epoch": 20.86,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.8133650422096252,
-      "eval_runtime": 0.7277,
-      "eval_samples_per_second": 63.215,
-      "eval_steps_per_second": 4.123,
       "step": 73
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8844852447509766,
-      "eval_runtime": 0.6501,
-      "eval_samples_per_second": 70.753,
-      "eval_steps_per_second": 4.614,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 0.0001176470588235294,
-      "loss": 0.7524,
       "step": 80
     },
     {
       "epoch": 22.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9037047624588013,
-      "eval_runtime": 0.6262,
-      "eval_samples_per_second": 73.464,
-      "eval_steps_per_second": 4.791,
       "step": 80
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 0.8921377062797546,
-      "eval_runtime": 0.6157,
-      "eval_samples_per_second": 74.718,
-      "eval_steps_per_second": 4.873,
       "step": 84
     },
     {
       "epoch": 24.86,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.8765698075294495,
-      "eval_runtime": 0.6211,
-      "eval_samples_per_second": 74.058,
-      "eval_steps_per_second": 4.83,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 8.823529411764705e-05,
-      "loss": 0.6843,
       "step": 90
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.8706851005554199,
-      "eval_runtime": 0.6322,
-      "eval_samples_per_second": 72.766,
-      "eval_steps_per_second": 4.746,
       "step": 91
     },
     {
       "epoch": 26.86,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.8922207951545715,
-      "eval_runtime": 0.6461,
-      "eval_samples_per_second": 71.192,
-      "eval_steps_per_second": 4.643,
       "step": 94
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.8861702084541321,
-      "eval_runtime": 0.6096,
-      "eval_samples_per_second": 75.454,
-      "eval_steps_per_second": 4.921,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 5.88235294117647e-05,
-      "loss": 0.7112,
       "step": 100
     },
     {
       "epoch": 28.86,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.8954079747200012,
-      "eval_runtime": 0.6282,
-      "eval_samples_per_second": 73.23,
-      "eval_steps_per_second": 4.776,
       "step": 101
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.9228313565254211,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.517,
-      "eval_steps_per_second": 4.925,
       "step": 105
     },
     {
       "epoch": 30.86,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.9172708988189697,
-      "eval_runtime": 0.6367,
-      "eval_samples_per_second": 72.253,
-      "eval_steps_per_second": 4.712,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 2.941176470588235e-05,
-      "loss": 0.6885,
       "step": 110
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.9317991137504578,
-      "eval_runtime": 0.6256,
-      "eval_samples_per_second": 73.524,
-      "eval_steps_per_second": 4.795,
       "step": 112
     },
     {
       "epoch": 32.86,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9049164056777954,
-      "eval_runtime": 0.6101,
-      "eval_samples_per_second": 75.393,
-      "eval_steps_per_second": 4.917,
       "step": 115
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.915714681148529,
-      "eval_runtime": 0.7362,
-      "eval_samples_per_second": 62.485,
-      "eval_steps_per_second": 4.075,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 0.6734,
       "step": 120
     },
     {
       "epoch": 34.29,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9050928354263306,
-      "eval_runtime": 0.7057,
-      "eval_samples_per_second": 65.186,
-      "eval_steps_per_second": 4.251,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 0.9331819852193196,
-      "train_runtime": 134.062,
-      "train_samples_per_second": 63.553,
-      "train_steps_per_second": 0.895
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.10869565217391304,
+  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-3",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
   "log_history": [
     {
       "epoch": 0.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.97916412353516,
+      "eval_runtime": 0.6657,
+      "eval_samples_per_second": 69.104,
+      "eval_steps_per_second": 4.507,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.9181137084961,
+      "eval_runtime": 0.5771,
+      "eval_samples_per_second": 79.702,
+      "eval_steps_per_second": 5.198,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 0.00027499999999999996,
+      "loss": 114.2395,
       "step": 10
     },
     {
       "epoch": 2.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.88134765625,
+      "eval_runtime": 0.5806,
+      "eval_samples_per_second": 79.223,
+      "eval_steps_per_second": 5.167,
       "step": 10
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.81156921386719,
+      "eval_runtime": 0.6172,
+      "eval_samples_per_second": 74.535,
+      "eval_steps_per_second": 4.861,
       "step": 14
     },
     {
       "epoch": 4.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.69862365722656,
+      "eval_runtime": 0.6011,
+      "eval_samples_per_second": 76.52,
+      "eval_steps_per_second": 4.99,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 0.00025,
+      "loss": 113.364,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.47984313964844,
+      "eval_runtime": 0.5961,
+      "eval_samples_per_second": 77.162,
+      "eval_steps_per_second": 5.032,
       "step": 21
     },
     {
       "epoch": 6.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 113.23371887207031,
+      "eval_runtime": 0.5811,
+      "eval_samples_per_second": 79.156,
+      "eval_steps_per_second": 5.162,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.82231140136719,
+      "eval_runtime": 0.6192,
+      "eval_samples_per_second": 74.295,
+      "eval_steps_per_second": 4.845,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 0.000225,
+      "loss": 111.1062,
       "step": 30
     },
     {
       "epoch": 8.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.57879638671875,
+      "eval_runtime": 0.6086,
+      "eval_samples_per_second": 75.578,
+      "eval_steps_per_second": 4.929,
       "step": 31
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.4156723022461,
+      "eval_runtime": 0.7142,
+      "eval_samples_per_second": 64.411,
+      "eval_steps_per_second": 4.201,
       "step": 35
     },
     {
       "epoch": 10.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 112.55355072021484,
+      "eval_runtime": 0.6382,
+      "eval_samples_per_second": 72.082,
+      "eval_steps_per_second": 4.701,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 0.00019999999999999998,
+      "loss": 114.7018,
       "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.70433807373047,
+      "eval_runtime": 0.5881,
+      "eval_samples_per_second": 78.214,
+      "eval_steps_per_second": 5.101,
       "step": 42
     },
     {
       "epoch": 12.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.65534973144531,
+      "eval_runtime": 0.5961,
+      "eval_samples_per_second": 77.162,
+      "eval_steps_per_second": 5.032,
       "step": 45
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.61336517333984,
+      "eval_runtime": 0.6682,
+      "eval_samples_per_second": 68.845,
+      "eval_steps_per_second": 4.49,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 0.000175,
+      "loss": 110.4914,
       "step": 50
     },
     {
       "epoch": 14.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.59801483154297,
+      "eval_runtime": 0.5861,
+      "eval_samples_per_second": 78.481,
+      "eval_steps_per_second": 5.118,
       "step": 52
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.76158142089844,
+      "eval_runtime": 0.6762,
+      "eval_samples_per_second": 68.03,
+      "eval_steps_per_second": 4.437,
       "step": 56
     },
     {
       "epoch": 16.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.15796661376953,
+      "eval_runtime": 0.5936,
+      "eval_samples_per_second": 77.488,
+      "eval_steps_per_second": 5.054,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 0.00015,
+      "loss": 110.734,
       "step": 60
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.71080780029297,
+      "eval_runtime": 0.6126,
+      "eval_samples_per_second": 75.084,
+      "eval_steps_per_second": 4.897,
       "step": 63
     },
     {
       "epoch": 18.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 111.52064514160156,
+      "eval_runtime": 0.5926,
+      "eval_samples_per_second": 77.619,
+      "eval_steps_per_second": 5.062,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.000125,
+      "loss": 111.3772,
       "step": 70
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 110.88188171386719,
+      "eval_runtime": 0.6091,
+      "eval_samples_per_second": 75.517,
+      "eval_steps_per_second": 4.925,
       "step": 70
     },
     {
       "epoch": 20.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 110.802490234375,
+      "eval_runtime": 0.6172,
+      "eval_samples_per_second": 74.536,
+      "eval_steps_per_second": 4.861,
       "step": 73
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 110.3514633178711,
+      "eval_runtime": 0.5981,
+      "eval_samples_per_second": 76.906,
+      "eval_steps_per_second": 5.016,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 111.2973,
       "step": 80
     },
     {
       "epoch": 22.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 110.23866271972656,
+      "eval_runtime": 0.6086,
+      "eval_samples_per_second": 75.578,
+      "eval_steps_per_second": 4.929,
       "step": 80
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.80725860595703,
+      "eval_runtime": 0.6562,
+      "eval_samples_per_second": 70.104,
+      "eval_steps_per_second": 4.572,
       "step": 84
     },
     {
       "epoch": 24.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.82267761230469,
+      "eval_runtime": 0.5876,
+      "eval_samples_per_second": 78.279,
+      "eval_steps_per_second": 5.105,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 7.5e-05,
+      "loss": 110.7135,
       "step": 90
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.60858154296875,
+      "eval_runtime": 0.6076,
+      "eval_samples_per_second": 75.702,
+      "eval_steps_per_second": 4.937,
       "step": 91
     },
     {
       "epoch": 26.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.5834732055664,
+      "eval_runtime": 0.5922,
+      "eval_samples_per_second": 77.683,
+      "eval_steps_per_second": 5.066,
       "step": 94
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.5829849243164,
+      "eval_runtime": 0.6041,
+      "eval_samples_per_second": 76.142,
+      "eval_steps_per_second": 4.966,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 4.9999999999999996e-05,
+      "loss": 109.1264,
       "step": 100
     },
     {
       "epoch": 28.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.16484832763672,
+      "eval_runtime": 0.5956,
+      "eval_samples_per_second": 77.228,
+      "eval_steps_per_second": 5.037,
       "step": 101
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.06578063964844,
+      "eval_runtime": 0.6146,
+      "eval_samples_per_second": 74.84,
+      "eval_steps_per_second": 4.881,
       "step": 105
     },
     {
       "epoch": 30.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.2845687866211,
+      "eval_runtime": 0.6191,
+      "eval_samples_per_second": 74.297,
+      "eval_steps_per_second": 4.845,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 2.4999999999999998e-05,
+      "loss": 110.2885,
       "step": 110
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.02674865722656,
+      "eval_runtime": 0.5961,
+      "eval_samples_per_second": 77.162,
+      "eval_steps_per_second": 5.032,
       "step": 112
     },
     {
       "epoch": 32.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 109.09725189208984,
+      "eval_runtime": 0.6096,
+      "eval_samples_per_second": 75.454,
+      "eval_steps_per_second": 4.921,
       "step": 115
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.87687683105469,
+      "eval_runtime": 0.6301,
+      "eval_samples_per_second": 73.0,
+      "eval_steps_per_second": 4.761,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 110.1122,
       "step": 120
     },
     {
       "epoch": 34.29,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 108.8197250366211,
+      "eval_runtime": 0.7547,
+      "eval_samples_per_second": 60.953,
+      "eval_steps_per_second": 3.975,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 111.46265258789063,
+      "train_runtime": 130.8746,
+      "train_samples_per_second": 65.1,
+      "train_steps_per_second": 0.917
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7673fec7b007a50d6f8a3168a28dc0e69f6038efdf738b3c08f114c5ccf36e4
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:100a825d3108f278285976d62db25b16e7f4cdd291fd2ff62433ee3fe956739f
 size 4728