End of training

Browse files

Files changed (9) hide show

README.md +41 -41
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Dec02_09-53-34_DESKTOP-SKBE9FB/events.out.tfevents.1733154815.DESKTOP-SKBE9FB.3184.0 +3 -0
runs/Dec02_09-53-34_DESKTOP-SKBE9FB/events.out.tfevents.1733154943.DESKTOP-SKBE9FB.3184.1 +3 -0
train_results.json +4 -4
trainer_state.json +201 -201
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.717391304347826
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8492
-- Accuracy: 0.7174
 ## Model description
@@ -51,7 +51,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0003
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -64,43 +64,43 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 1.3859          | 0.3261   |
-| No log        | 2.0   | 7    | 1.3806          | 0.5217   |
-| 1.3829        | 2.86  | 10   | 1.3677          | 0.5870   |
-| 1.3829        | 4.0   | 14   | 1.3037          | 0.6739   |
-| 1.3829        | 4.86  | 17   | 1.2540          | 0.6522   |
-| 1.3074        | 6.0   | 21   | 1.1509          | 0.6522   |
-| 1.3074        | 6.86  | 24   | 1.0882          | 0.6739   |
-| 1.3074        | 8.0   | 28   | 1.0569          | 0.6522   |
-| 1.1437        | 8.86  | 31   | 1.0536          | 0.6304   |
-| 1.1437        | 10.0  | 35   | 0.9993          | 0.6522   |
-| 1.1437        | 10.86 | 38   | 0.9819          | 0.6739   |
-| 1.0439        | 12.0  | 42   | 0.9593          | 0.6957   |
-| 1.0439        | 12.86 | 45   | 0.9359          | 0.6304   |
-| 1.0439        | 14.0  | 49   | 0.9467          | 0.6522   |
-| 0.9813        | 14.86 | 52   | 0.9331          | 0.6522   |
-| 0.9813        | 16.0  | 56   | 0.9386          | 0.6522   |
-| 0.9813        | 16.86 | 59   | 0.9266          | 0.6739   |
-| 0.8763        | 18.0  | 63   | 0.8833          | 0.6957   |
-| 0.8763        | 18.86 | 66   | 0.8679          | 0.6739   |
-| 0.9187        | 20.0  | 70   | 0.8639          | 0.6957   |
-| 0.9187        | 20.86 | 73   | 0.8492          | 0.7174   |
-| 0.9187        | 22.0  | 77   | 0.8846          | 0.6957   |
-| 0.8067        | 22.86 | 80   | 0.9083          | 0.6522   |
-| 0.8067        | 24.0  | 84   | 0.9269          | 0.6522   |
-| 0.8067        | 24.86 | 87   | 0.8849          | 0.6739   |
-| 0.7248        | 26.0  | 91   | 0.8935          | 0.6522   |
-| 0.7248        | 26.86 | 94   | 0.8719          | 0.6957   |
-| 0.7248        | 28.0  | 98   | 0.8759          | 0.6739   |
-| 0.773         | 28.86 | 101  | 0.8887          | 0.6739   |
-| 0.773         | 30.0  | 105  | 0.9288          | 0.6522   |
-| 0.773         | 30.86 | 108  | 0.9041          | 0.6522   |
-| 0.7467        | 32.0  | 112  | 0.9017          | 0.6522   |
-| 0.7467        | 32.86 | 115  | 0.8767          | 0.6522   |
-| 0.7467        | 34.0  | 119  | 0.8993          | 0.6739   |
-| 0.7323        | 34.29 | 120  | 0.8946          | 0.6522   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.10869565217391304
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4630678434517160409801529569050624.0000
+- Accuracy: 0.1087
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0005
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 ### Training results
+| Training Loss                           | Epoch | Step | Validation Loss                         | Accuracy |
+|:---------------------------------------:|:-----:|:----:|:---------------------------------------:|:--------:|
+| No log                                  | 0.86  | 3    | 4630678434517160409801529569050624.0000 | 0.1087   |
+| No log                                  | 2.0   | 7    | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4641762144967896284577948103606272.0000 | 2.86  | 10   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4641762144967896284577948103606272.0000 | 4.0   | 14   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4641762144967896284577948103606272.0000 | 4.86  | 17   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4615785211183531864889464880889856.0000 | 6.0   | 21   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4615785211183531864889464880889856.0000 | 6.86  | 24   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4615785211183531864889464880889856.0000 | 8.0   | 28   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4544348643276529710746136018419712.0000 | 8.86  | 31   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4544348643276529710746136018419712.0000 | 10.0  | 35   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4544348643276529710746136018419712.0000 | 10.86 | 38   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4714822395030425258781985118093312.0000 | 12.0  | 42   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4714822395030425258781985118093312.0000 | 12.86 | 45   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4714822395030425258781985118093312.0000 | 14.0  | 49   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4568701399729351711513951590154240.0000 | 14.86 | 52   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4568701399729351711513951590154240.0000 | 16.0  | 56   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4568701399729351711513951590154240.0000 | 16.86 | 59   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4604419931270860299785219619160064.0000 | 18.0  | 63   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4604419931270860299785219619160064.0000 | 18.86 | 66   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4640138957988385063377199450554368.0000 | 20.0  | 70   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4640138957988385063377199450554368.0000 | 20.86 | 73   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4640138957988385063377199450554368.0000 | 22.0  | 77   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4659621163150642779283602368626688.0000 | 22.86 | 80   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4659621163150642779283602368626688.0000 | 24.0  | 84   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4659621163150642779283602368626688.0000 | 24.86 | 87   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4659620667974627180423642869661696.0000 | 26.0  | 91   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4659620667974627180423642869661696.0000 | 26.86 | 94   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4659620667974627180423642869661696.0000 | 28.0  | 98   | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4588184100067625026280314007191552.0000 | 28.86 | 101  | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4588184100067625026280314007191552.0000 | 30.0  | 105  | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4588184100067625026280314007191552.0000 | 30.86 | 108  | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4649880060569514209560777061302272.0000 | 32.0  | 112  | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4649880060569514209560777061302272.0000 | 32.86 | 115  | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4649880060569514209560777061302272.0000 | 34.0  | 119  | 4630678434517160409801529569050624.0000 | 0.1087   |
+| 4641762144967896284577948103606272.0000 | 34.29 | 120  | 4630678434517160409801529569050624.0000 | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.717391304347826,
-    "eval_loss": 0.8492209315299988,
-    "eval_runtime": 0.6737,
-    "eval_samples_per_second": 68.284,
-    "eval_steps_per_second": 4.453,
-    "train_loss": 0.9531369884808858,
-    "train_runtime": 147.6547,
-    "train_samples_per_second": 57.702,
-    "train_steps_per_second": 0.813
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 4.6306784345171604e+33,
+    "eval_runtime": 0.6036,
+    "eval_samples_per_second": 76.204,
+    "eval_steps_per_second": 4.97,
+    "train_loss": 4.6274205683481073e+33,
+    "train_runtime": 126.8689,
+    "train_samples_per_second": 67.156,
+    "train_steps_per_second": 0.946
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
-    "eval_accuracy": 0.717391304347826,
-    "eval_loss": 0.8492209315299988,
-    "eval_runtime": 0.6737,
-    "eval_samples_per_second": 68.284,
-    "eval_steps_per_second": 4.453
 }

 {
     "epoch": 34.29,
+    "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 4.6306784345171604e+33,
+    "eval_runtime": 0.6036,
+    "eval_samples_per_second": 76.204,
+    "eval_steps_per_second": 4.97
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e0359efe7b86e67f643b1723fbcc70a40720a77587d4a18776d051bb3516544
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2da94344d7102046f3b98629d0b6ff940dba4361060a16e6a35ea4652e934d3
 size 12203648

runs/Dec02_09-53-34_DESKTOP-SKBE9FB/events.out.tfevents.1733154815.DESKTOP-SKBE9FB.3184.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:995ffba5c67e030b1044d947cff3a5b9687db5f84de6ccbc572a9bb0726fd8ca
+size 17834

runs/Dec02_09-53-34_DESKTOP-SKBE9FB/events.out.tfevents.1733154943.DESKTOP-SKBE9FB.3184.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b0f5f5c1214410a5cb61ac1c310cd62f3ecf8cf72b12b61cf5a44d8c6a35196
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 0.9531369884808858,
-    "train_runtime": 147.6547,
-    "train_samples_per_second": 57.702,
-    "train_steps_per_second": 0.813
 }

 {
     "epoch": 34.29,
+    "train_loss": 4.6274205683481073e+33,
+    "train_runtime": 126.8689,
+    "train_samples_per_second": 67.156,
+    "train_steps_per_second": 0.946
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.717391304347826,
-  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-73",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
@@ -10,32 +10,32 @@
   "log_history": [
     {
       "epoch": 0.86,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.3858932256698608,
-      "eval_runtime": 0.8132,
-      "eval_samples_per_second": 56.568,
-      "eval_steps_per_second": 3.689,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5217391304347826,
-      "eval_loss": 1.380622148513794,
-      "eval_runtime": 0.6061,
-      "eval_samples_per_second": 75.891,
-      "eval_steps_per_second": 4.949,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 0.00025,
-      "loss": 1.3829,
       "step": 10
     },
     {
       "epoch": 2.86,
-      "eval_accuracy": 0.5869565217391305,
-      "eval_loss": 1.3677465915679932,
       "eval_runtime": 0.6166,
       "eval_samples_per_second": 74.597,
       "eval_steps_per_second": 4.865,
@@ -43,366 +43,366 @@
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 1.3037457466125488,
-      "eval_runtime": 0.7182,
-      "eval_samples_per_second": 64.052,
-      "eval_steps_per_second": 4.177,
       "step": 14
     },
     {
       "epoch": 4.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 1.2539862394332886,
-      "eval_runtime": 0.7222,
-      "eval_samples_per_second": 63.698,
-      "eval_steps_per_second": 4.154,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.0002777777777777778,
-      "loss": 1.3074,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 1.15088951587677,
-      "eval_runtime": 0.6441,
-      "eval_samples_per_second": 71.413,
-      "eval_steps_per_second": 4.657,
       "step": 21
     },
     {
       "epoch": 6.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 1.0881719589233398,
-      "eval_runtime": 0.6236,
-      "eval_samples_per_second": 73.76,
-      "eval_steps_per_second": 4.81,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 1.056923270225525,
-      "eval_runtime": 1.0408,
-      "eval_samples_per_second": 44.199,
-      "eval_steps_per_second": 2.883,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.00025,
-      "loss": 1.1437,
       "step": 30
     },
     {
       "epoch": 8.86,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 1.053645133972168,
-      "eval_runtime": 0.8772,
-      "eval_samples_per_second": 52.439,
-      "eval_steps_per_second": 3.42,
       "step": 31
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9993222951889038,
-      "eval_runtime": 1.0778,
-      "eval_samples_per_second": 42.681,
-      "eval_steps_per_second": 2.784,
       "step": 35
     },
     {
       "epoch": 10.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9819307923316956,
-      "eval_runtime": 0.6542,
-      "eval_samples_per_second": 70.32,
-      "eval_steps_per_second": 4.586,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.00022222222222222218,
-      "loss": 1.0439,
       "step": 40
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.9593490958213806,
-      "eval_runtime": 1.1103,
-      "eval_samples_per_second": 41.431,
-      "eval_steps_per_second": 2.702,
       "step": 42
     },
     {
       "epoch": 12.86,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 0.9358569979667664,
-      "eval_runtime": 0.7992,
-      "eval_samples_per_second": 57.558,
-      "eval_steps_per_second": 3.754,
       "step": 45
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9467045068740845,
-      "eval_runtime": 1.2303,
-      "eval_samples_per_second": 37.39,
-      "eval_steps_per_second": 2.438,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 0.00019444444444444443,
-      "loss": 0.9813,
       "step": 50
     },
     {
       "epoch": 14.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9330639243125916,
-      "eval_runtime": 0.9252,
-      "eval_samples_per_second": 49.718,
-      "eval_steps_per_second": 3.242,
       "step": 52
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9386307001113892,
-      "eval_runtime": 0.6156,
-      "eval_samples_per_second": 74.718,
-      "eval_steps_per_second": 4.873,
       "step": 56
     },
     {
       "epoch": 16.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9266453385353088,
-      "eval_runtime": 0.6812,
-      "eval_samples_per_second": 67.533,
-      "eval_steps_per_second": 4.404,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 0.00016666666666666666,
-      "loss": 0.8763,
       "step": 60
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.8833379149436951,
-      "eval_runtime": 0.6407,
-      "eval_samples_per_second": 71.8,
-      "eval_steps_per_second": 4.683,
       "step": 63
     },
     {
       "epoch": 18.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8679067492485046,
-      "eval_runtime": 0.6221,
-      "eval_samples_per_second": 73.938,
-      "eval_steps_per_second": 4.822,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 0.9187,
       "step": 70
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.8639189600944519,
-      "eval_runtime": 0.6146,
-      "eval_samples_per_second": 74.84,
-      "eval_steps_per_second": 4.881,
       "step": 70
     },
     {
       "epoch": 20.86,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.8492209315299988,
-      "eval_runtime": 0.6021,
-      "eval_samples_per_second": 76.395,
-      "eval_steps_per_second": 4.982,
       "step": 73
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.8846498727798462,
-      "eval_runtime": 0.6817,
-      "eval_samples_per_second": 67.482,
-      "eval_steps_per_second": 4.401,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 0.00011111111111111109,
-      "loss": 0.8067,
       "step": 80
     },
     {
       "epoch": 22.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9083214402198792,
-      "eval_runtime": 0.5901,
-      "eval_samples_per_second": 77.947,
-      "eval_steps_per_second": 5.083,
       "step": 80
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9269394278526306,
-      "eval_runtime": 0.5941,
-      "eval_samples_per_second": 77.424,
-      "eval_steps_per_second": 5.049,
       "step": 84
     },
     {
       "epoch": 24.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8849068284034729,
-      "eval_runtime": 0.5811,
-      "eval_samples_per_second": 79.154,
-      "eval_steps_per_second": 5.162,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 8.333333333333333e-05,
-      "loss": 0.7248,
       "step": 90
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.8935391902923584,
-      "eval_runtime": 0.5891,
-      "eval_samples_per_second": 78.081,
-      "eval_steps_per_second": 5.092,
       "step": 91
     },
     {
       "epoch": 26.86,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.8718845248222351,
-      "eval_runtime": 0.5891,
-      "eval_samples_per_second": 78.081,
-      "eval_steps_per_second": 5.092,
       "step": 94
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8758830428123474,
-      "eval_runtime": 0.6101,
-      "eval_samples_per_second": 75.393,
-      "eval_steps_per_second": 4.917,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 5.5555555555555545e-05,
-      "loss": 0.773,
       "step": 100
     },
     {
       "epoch": 28.86,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8886707425117493,
-      "eval_runtime": 0.5751,
-      "eval_samples_per_second": 79.98,
-      "eval_steps_per_second": 5.216,
       "step": 101
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9288129210472107,
-      "eval_runtime": 0.5851,
-      "eval_samples_per_second": 78.615,
-      "eval_steps_per_second": 5.127,
       "step": 105
     },
     {
       "epoch": 30.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9040660858154297,
-      "eval_runtime": 0.5871,
-      "eval_samples_per_second": 78.345,
-      "eval_steps_per_second": 5.109,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 2.7777777777777772e-05,
-      "loss": 0.7467,
       "step": 110
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9017118215560913,
-      "eval_runtime": 0.5852,
-      "eval_samples_per_second": 78.612,
-      "eval_steps_per_second": 5.127,
       "step": 112
     },
     {
       "epoch": 32.86,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.8766883611679077,
-      "eval_runtime": 0.5811,
-      "eval_samples_per_second": 79.156,
-      "eval_steps_per_second": 5.162,
       "step": 115
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8992951512336731,
-      "eval_runtime": 0.5791,
-      "eval_samples_per_second": 79.427,
-      "eval_steps_per_second": 5.18,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 0.7323,
       "step": 120
     },
     {
       "epoch": 34.29,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.8945603370666504,
-      "eval_runtime": 0.5791,
-      "eval_samples_per_second": 79.427,
-      "eval_steps_per_second": 5.18,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 0.9531369884808858,
-      "train_runtime": 147.6547,
-      "train_samples_per_second": 57.702,
-      "train_steps_per_second": 0.813
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.10869565217391304,
+  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-3",
   "epoch": 34.285714285714285,
   "eval_steps": 500,
   "global_step": 120,
   "log_history": [
     {
       "epoch": 0.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6507,
+      "eval_samples_per_second": 70.697,
+      "eval_steps_per_second": 4.611,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5966,
+      "eval_samples_per_second": 77.098,
+      "eval_steps_per_second": 5.028,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 4.641762144967896e+33,
       "step": 10
     },
     {
       "epoch": 2.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
       "eval_runtime": 0.6166,
       "eval_samples_per_second": 74.597,
       "eval_steps_per_second": 4.865,
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6132,
+      "eval_samples_per_second": 75.022,
+      "eval_steps_per_second": 4.893,
       "step": 14
     },
     {
       "epoch": 4.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6151,
+      "eval_samples_per_second": 74.78,
+      "eval_steps_per_second": 4.877,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 0.000462962962962963,
+      "loss": 4.615785211183532e+33,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6142,
+      "eval_samples_per_second": 74.9,
+      "eval_steps_per_second": 4.885,
       "step": 21
     },
     {
       "epoch": 6.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6281,
+      "eval_samples_per_second": 73.231,
+      "eval_steps_per_second": 4.776,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5936,
+      "eval_samples_per_second": 77.487,
+      "eval_steps_per_second": 5.054,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 4.5443486432765297e+33,
       "step": 30
     },
     {
       "epoch": 8.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6712,
+      "eval_samples_per_second": 68.537,
+      "eval_steps_per_second": 4.47,
       "step": 31
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5982,
+      "eval_samples_per_second": 76.903,
+      "eval_steps_per_second": 5.015,
       "step": 35
     },
     {
       "epoch": 10.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5791,
+      "eval_samples_per_second": 79.427,
+      "eval_steps_per_second": 5.18,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 0.00037037037037037035,
+      "loss": 4.714822395030425e+33,
       "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5751,
+      "eval_samples_per_second": 79.982,
+      "eval_steps_per_second": 5.216,
       "step": 42
     },
     {
       "epoch": 12.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5746,
+      "eval_samples_per_second": 80.051,
+      "eval_steps_per_second": 5.221,
       "step": 45
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6457,
+      "eval_samples_per_second": 71.246,
+      "eval_steps_per_second": 4.646,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 0.00032407407407407406,
+      "loss": 4.5687013997293517e+33,
       "step": 50
     },
     {
       "epoch": 14.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5916,
+      "eval_samples_per_second": 77.75,
+      "eval_steps_per_second": 5.071,
       "step": 52
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5736,
+      "eval_samples_per_second": 80.19,
+      "eval_steps_per_second": 5.23,
       "step": 56
     },
     {
       "epoch": 16.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5951,
+      "eval_samples_per_second": 77.294,
+      "eval_steps_per_second": 5.041,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 0.0002777777777777778,
+      "loss": 4.6044199312708603e+33,
       "step": 60
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5936,
+      "eval_samples_per_second": 77.488,
+      "eval_steps_per_second": 5.054,
       "step": 63
     },
     {
       "epoch": 18.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5736,
+      "eval_samples_per_second": 80.19,
+      "eval_steps_per_second": 5.23,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.0002314814814814815,
+      "loss": 4.640138957988385e+33,
       "step": 70
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5836,
+      "eval_samples_per_second": 78.816,
+      "eval_steps_per_second": 5.14,
       "step": 70
     },
     {
       "epoch": 20.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6777,
+      "eval_samples_per_second": 67.88,
+      "eval_steps_per_second": 4.427,
       "step": 73
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5766,
+      "eval_samples_per_second": 79.773,
+      "eval_steps_per_second": 5.203,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 0.00018518518518518518,
+      "loss": 4.659621163150643e+33,
       "step": 80
     },
     {
       "epoch": 22.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5801,
+      "eval_samples_per_second": 79.292,
+      "eval_steps_per_second": 5.171,
       "step": 80
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6001,
+      "eval_samples_per_second": 76.649,
+      "eval_steps_per_second": 4.999,
       "step": 84
     },
     {
       "epoch": 24.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5656,
+      "eval_samples_per_second": 81.325,
+      "eval_steps_per_second": 5.304,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 4.659620667974627e+33,
       "step": 90
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5741,
+      "eval_samples_per_second": 80.121,
+      "eval_steps_per_second": 5.225,
       "step": 91
     },
     {
       "epoch": 26.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5846,
+      "eval_samples_per_second": 78.681,
+      "eval_steps_per_second": 5.131,
       "step": 94
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6051,
+      "eval_samples_per_second": 76.015,
+      "eval_steps_per_second": 4.958,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 9.259259259259259e-05,
+      "loss": 4.588184100067625e+33,
       "step": 100
     },
     {
       "epoch": 28.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5796,
+      "eval_samples_per_second": 79.36,
+      "eval_steps_per_second": 5.176,
       "step": 101
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5726,
+      "eval_samples_per_second": 80.33,
+      "eval_steps_per_second": 5.239,
       "step": 105
     },
     {
       "epoch": 30.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6887,
+      "eval_samples_per_second": 66.796,
+      "eval_steps_per_second": 4.356,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 4.6296296296296294e-05,
+      "loss": 4.649880060569514e+33,
       "step": 110
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5901,
+      "eval_samples_per_second": 77.949,
+      "eval_steps_per_second": 5.084,
       "step": 112
     },
     {
       "epoch": 32.86,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5836,
+      "eval_samples_per_second": 78.816,
+      "eval_steps_per_second": 5.14,
       "step": 115
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.5936,
+      "eval_samples_per_second": 77.488,
+      "eval_steps_per_second": 5.054,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 4.641762144967896e+33,
       "step": 120
     },
     {
       "epoch": 34.29,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6306784345171604e+33,
+      "eval_runtime": 0.6026,
+      "eval_samples_per_second": 76.331,
+      "eval_steps_per_second": 4.978,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 4.6274205683481073e+33,
+      "train_runtime": 126.8689,
+      "train_samples_per_second": 67.156,
+      "train_steps_per_second": 0.946
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2e9b757d1b8c4a487ce9b5ba75d5e825afd3a6e4d73ad2d6c3dd161720724df
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ad758ffe21c1a41f402e7f5c6095bca97da7069871e180ed134cd9299116e56
 size 4728