End of training

Browse files

Files changed (14) hide show

README.md +40 -39
all_results.json +8 -8
config.json +8 -8
eval_results.json +4 -4
model.safetensors +1 -1
runs/Dec02_11-33-33_DESKTOP-SKBE9FB/events.out.tfevents.1733160814.DESKTOP-SKBE9FB.16380.0 +3 -0
runs/Dec02_11-35-09_DESKTOP-SKBE9FB/events.out.tfevents.1733160909.DESKTOP-SKBE9FB.4408.0 +3 -0
runs/Dec02_11-36-38_DESKTOP-SKBE9FB/events.out.tfevents.1733160999.DESKTOP-SKBE9FB.19404.0 +3 -0
runs/Dec02_11-40-14_DESKTOP-SKBE9FB/events.out.tfevents.1733161215.DESKTOP-SKBE9FB.1968.0 +3 -0
runs/Dec02_11-41-54_DESKTOP-SKBE9FB/events.out.tfevents.1733161314.DESKTOP-SKBE9FB.17516.0 +3 -0
runs/Dec02_11-41-54_DESKTOP-SKBE9FB/events.out.tfevents.1733161434.DESKTOP-SKBE9FB.17516.1 +3 -0
train_results.json +4 -4
trainer_state.json +167 -167
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -31,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 113.8668
 - Accuracy: 0.1087
 ## Model description
@@ -51,7 +51,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2.5e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -59,47 +59,48 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 40
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.86  | 3    | 113.8668        | 0.1087   |
-| No log        | 2.0   | 7    | 113.8652        | 0.1087   |
-| 114.139       | 2.86  | 10   | 113.8636        | 0.1087   |
-| 114.139       | 4.0   | 14   | 113.8630        | 0.1087   |
-| 114.139       | 4.86  | 17   | 113.8617        | 0.1087   |
-| 113.4957      | 6.0   | 21   | 113.8592        | 0.1087   |
-| 113.4957      | 6.86  | 24   | 113.8579        | 0.1087   |
-| 113.4957      | 8.0   | 28   | 113.8578        | 0.1087   |
-| 111.7345      | 8.86  | 31   | 113.8550        | 0.1087   |
-| 111.7345      | 10.0  | 35   | 113.8531        | 0.1087   |
-| 111.7345      | 10.86 | 38   | 113.8520        | 0.1087   |
-| 115.9214      | 12.0  | 42   | 113.8497        | 0.1087   |
-| 115.9214      | 12.86 | 45   | 113.8484        | 0.1087   |
-| 115.9214      | 14.0  | 49   | 113.8455        | 0.1087   |
-| 112.3215      | 14.86 | 52   | 113.8392        | 0.1087   |
-| 112.3215      | 16.0  | 56   | 113.8351        | 0.1087   |
-| 112.3215      | 16.86 | 59   | 113.8354        | 0.1087   |
-| 113.1908      | 18.0  | 63   | 113.8316        | 0.1087   |
-| 113.1908      | 18.86 | 66   | 113.8295        | 0.1087   |
-| 114.062       | 20.0  | 70   | 113.8284        | 0.1087   |
-| 114.062       | 20.86 | 73   | 113.8253        | 0.1087   |
-| 114.062       | 22.0  | 77   | 113.8235        | 0.1087   |
-| 114.5312      | 22.86 | 80   | 113.8207        | 0.1087   |
-| 114.5312      | 24.0  | 84   | 113.8126        | 0.1087   |
-| 114.5312      | 24.86 | 87   | 113.8100        | 0.1087   |
-| 114.5216      | 26.0  | 91   | 113.8053        | 0.1087   |
-| 114.5216      | 26.86 | 94   | 113.8032        | 0.1087   |
-| 114.5216      | 28.0  | 98   | 113.8035        | 0.1087   |
-| 112.7612      | 28.86 | 101  | 113.7992        | 0.1087   |
-| 112.7612      | 30.0  | 105  | 113.7939        | 0.1087   |
-| 112.7612      | 30.86 | 108  | 113.7967        | 0.1087   |
-| 114.2748      | 32.0  | 112  | 113.7973        | 0.1087   |
-| 114.2748      | 32.86 | 115  | 113.7971        | 0.1087   |
-| 114.2748      | 34.0  | 119  | 113.7908        | 0.1087   |
-| 114.0708      | 34.29 | 120  | 113.7932        | 0.1087   |
 ### Framework versions

 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 125514790469632.0
 - Accuracy: 0.1087
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1.5e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.01
 - num_epochs: 40
 ### Training results
+| Training Loss     | Epoch | Step | Validation Loss   | Accuracy |
+|:-----------------:|:-----:|:----:|:-----------------:|:--------:|
+| No log            | 0.86  | 3    | 125514790469632.0 | 0.1087   |
+| No log            | 2.0   | 7    | 125514790469632.0 | 0.1087   |
+| 125815215043379.2 | 2.86  | 10   | 125514790469632.0 | 0.1087   |
+| 125815215043379.2 | 4.0   | 14   | 125514790469632.0 | 0.1087   |
+| 125815215043379.2 | 4.86  | 17   | 125514790469632.0 | 0.1087   |
+| 125111108842291.2 | 6.0   | 21   | 125514790469632.0 | 0.1087   |
+| 125111108842291.2 | 6.86  | 24   | 125514790469632.0 | 0.1087   |
+| 125111108842291.2 | 8.0   | 28   | 125514790469632.0 | 0.1087   |
+| 123174816789299.2 | 8.86  | 31   | 125514790469632.0 | 0.1087   |
+| 123174816789299.2 | 10.0  | 35   | 125514790469632.0 | 0.1087   |
+| 123174816789299.2 | 10.86 | 38   | 125514790469632.0 | 0.1087   |
+| 127795517089382.4 | 12.0  | 42   | 125514790469632.0 | 0.1087   |
+| 127795517089382.4 | 12.86 | 45   | 125514790469632.0 | 0.1087   |
+| 127795517089382.4 | 14.0  | 49   | 125514790469632.0 | 0.1087   |
+| 123834899575603.2 | 14.86 | 52   | 125514790469632.0 | 0.1087   |
+| 123834899575603.2 | 16.0  | 56   | 125514790469632.0 | 0.1087   |
+| 123834899575603.2 | 16.86 | 59   | 125514790469632.0 | 0.1087   |
+| 124803052312985.6 | 18.0  | 63   | 125514790469632.0 | 0.1087   |
+| 124803052312985.6 | 18.86 | 66   | 125514790469632.0 | 0.1087   |
+| 125771218472140.8 | 20.0  | 70   | 125514790469632.0 | 0.1087   |
+| 125771218472140.8 | 20.86 | 73   | 125514790469632.0 | 0.1087   |
+| 125771218472140.8 | 22.0  | 77   | 125514790469632.0 | 0.1087   |
+| 126299284701184.0 | 22.86 | 80   | 125514790469632.0 | 0.1087   |
+| 126299284701184.0 | 24.0  | 84   | 125514790469632.0 | 0.1087   |
+| 126299284701184.0 | 24.86 | 87   | 125514790469632.0 | 0.1087   |
+| 126299271279411.2 | 26.0  | 91   | 125514790469632.0 | 0.1087   |
+| 126299271279411.2 | 26.86 | 94   | 125514790469632.0 | 0.1087   |
+| 126299271279411.2 | 28.0  | 98   | 125514790469632.0 | 0.1087   |
+| 124362979226419.2 | 28.86 | 101  | 125514790469632.0 | 0.1087   |
+| 124362979226419.2 | 30.0  | 105  | 125514790469632.0 | 0.1087   |
+| 124362979226419.2 | 30.86 | 108  | 125514790469632.0 | 0.1087   |
+| 126035251586662.4 | 32.0  | 112  | 125514790469632.0 | 0.1087   |
+| 126035251586662.4 | 32.86 | 115  | 125514790469632.0 | 0.1087   |
+| 126035251586662.4 | 34.0  | 119  | 125514790469632.0 | 0.1087   |
+| 125815215043379.2 | 34.29 | 120  | 125514790469632.0 | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.86678314208984,
-    "eval_runtime": 0.6487,
-    "eval_samples_per_second": 70.916,
-    "eval_steps_per_second": 4.625,
-    "train_loss": 113.75203348795573,
-    "train_runtime": 131.4365,
-    "train_samples_per_second": 64.822,
-    "train_steps_per_second": 0.913
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 125514790469632.0,
+    "eval_runtime": 0.7827,
+    "eval_samples_per_second": 58.772,
+    "eval_steps_per_second": 3.833,
+    "train_loss": 125426485830178.14,
+    "train_runtime": 118.5658,
+    "train_samples_per_second": 71.859,
+    "train_steps_per_second": 1.012
 }

config.json CHANGED Viewed

@@ -28,16 +28,16 @@
   ],
   "hidden_act": "gelu",
   "id2label": {
-    "0": "avanzada",
-    "1": "leve",
-    "2": "moderada",
-    "3": "no dmae"
   },
   "label2id": {
-    "avanzada": 0,
-    "leve": 1,
-    "moderada": 2,
-    "no dmae": 3
   },
   "layer_scale_init_value": 1e-05,
   "mlp_ratio": 4,

   ],
   "hidden_act": "gelu",
   "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3"
   },
   "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3
   },
   "layer_scale_init_value": 1e-05,
   "mlp_ratio": 4,

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
-    "eval_loss": 113.86678314208984,
-    "eval_runtime": 0.6487,
-    "eval_samples_per_second": 70.916,
-    "eval_steps_per_second": 4.625
 }

 {
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
+    "eval_loss": 125514790469632.0,
+    "eval_runtime": 0.7827,
+    "eval_samples_per_second": 58.772,
+    "eval_steps_per_second": 3.833
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:debfd6b2b6d15236fd33ba40707563aedea5995b0c33019829328fa5b74fb0e2
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:1035ad2070ee3a87574225f6b1e39422e066b8e076433a911aa6c6733f807ef5
 size 12203648

runs/Dec02_11-33-33_DESKTOP-SKBE9FB/events.out.tfevents.1733160814.DESKTOP-SKBE9FB.16380.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c22bcd40eca1b779fffeb671cc84f11ded4821bc85645f9942028879d0e6343
+size 11492

runs/Dec02_11-35-09_DESKTOP-SKBE9FB/events.out.tfevents.1733160909.DESKTOP-SKBE9FB.4408.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57e4eb6658106c13d65d08bca1729e96980114d64819c7bbe1ea2ac865477833
+size 9282

runs/Dec02_11-36-38_DESKTOP-SKBE9FB/events.out.tfevents.1733160999.DESKTOP-SKBE9FB.19404.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8a04284c81afc110142f44944ac8b125035082889acb7008608d0341f363eeb
+size 5333

runs/Dec02_11-40-14_DESKTOP-SKBE9FB/events.out.tfevents.1733161215.DESKTOP-SKBE9FB.1968.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:132c8f0602c5f4b06e956935e6168414a896996d4c109ebd08997f03241dadcd
+size 12753

runs/Dec02_11-41-54_DESKTOP-SKBE9FB/events.out.tfevents.1733161314.DESKTOP-SKBE9FB.17516.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0d2b9a44b8a39afbc1998b559b54f5ac60f3f1cb5f0033d324a600122d4bf21
+size 17838

runs/Dec02_11-41-54_DESKTOP-SKBE9FB/events.out.tfevents.1733161434.DESKTOP-SKBE9FB.17516.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:801a2e03f0d4ba46fe194a675a2e4f1e2ec741d580ad7e07d4f3aa458d0e7d92
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 113.75203348795573,
-    "train_runtime": 131.4365,
-    "train_samples_per_second": 64.822,
-    "train_steps_per_second": 0.913
 }

 {
     "epoch": 34.29,
+    "train_loss": 125426485830178.14,
+    "train_runtime": 118.5658,
+    "train_samples_per_second": 71.859,
+    "train_steps_per_second": 1.012
 }

trainer_state.json CHANGED Viewed

@@ -11,398 +11,398 @@
     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.86678314208984,
-      "eval_runtime": 0.6737,
-      "eval_samples_per_second": 68.283,
-      "eval_steps_per_second": 4.453,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.8652114868164,
-      "eval_runtime": 0.6176,
-      "eval_samples_per_second": 74.476,
-      "eval_steps_per_second": 4.857,
       "step": 7
     },
     {
       "epoch": 2.86,
-      "learning_rate": 2.2916666666666667e-05,
-      "loss": 114.139,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.86360168457031,
-      "eval_runtime": 0.6252,
-      "eval_samples_per_second": 73.581,
-      "eval_steps_per_second": 4.799,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.86296081542969,
-      "eval_runtime": 0.6111,
-      "eval_samples_per_second": 75.27,
-      "eval_steps_per_second": 4.909,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.86167907714844,
-      "eval_runtime": 0.6116,
-      "eval_samples_per_second": 75.206,
-      "eval_steps_per_second": 4.905,
       "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 113.4957,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.85923767089844,
-      "eval_runtime": 0.6187,
-      "eval_samples_per_second": 74.355,
-      "eval_steps_per_second": 4.849,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.8578872680664,
-      "eval_runtime": 0.6091,
-      "eval_samples_per_second": 75.517,
-      "eval_steps_per_second": 4.925,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.8578109741211,
-      "eval_runtime": 0.6207,
-      "eval_samples_per_second": 74.114,
-      "eval_steps_per_second": 4.834,
       "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 111.7345,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.8550033569336,
-      "eval_runtime": 0.6176,
-      "eval_samples_per_second": 74.476,
-      "eval_steps_per_second": 4.857,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.85313415527344,
-      "eval_runtime": 0.5966,
-      "eval_samples_per_second": 77.098,
-      "eval_steps_per_second": 5.028,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.85196685791016,
-      "eval_runtime": 0.6032,
-      "eval_samples_per_second": 76.266,
-      "eval_steps_per_second": 4.974,
       "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 115.9214,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.84968566894531,
-      "eval_runtime": 0.5951,
-      "eval_samples_per_second": 77.294,
-      "eval_steps_per_second": 5.041,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.8483657836914,
-      "eval_runtime": 0.6171,
-      "eval_samples_per_second": 74.538,
-      "eval_steps_per_second": 4.861,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.84552001953125,
-      "eval_runtime": 0.6081,
-      "eval_samples_per_second": 75.641,
-      "eval_steps_per_second": 4.933,
       "step": 49
     },
     {
       "epoch": 14.29,
-      "learning_rate": 1.4583333333333335e-05,
-      "loss": 112.3215,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.83916473388672,
-      "eval_runtime": 0.7172,
-      "eval_samples_per_second": 64.142,
-      "eval_steps_per_second": 4.183,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.83506774902344,
-      "eval_runtime": 0.6271,
-      "eval_samples_per_second": 73.349,
-      "eval_steps_per_second": 4.784,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.83540344238281,
-      "eval_runtime": 0.6112,
-      "eval_samples_per_second": 75.268,
-      "eval_steps_per_second": 4.909,
       "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 1.25e-05,
-      "loss": 113.1908,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.83159637451172,
-      "eval_runtime": 0.6036,
-      "eval_samples_per_second": 76.204,
-      "eval_steps_per_second": 4.97,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.82946014404297,
-      "eval_runtime": 0.6282,
-      "eval_samples_per_second": 73.23,
-      "eval_steps_per_second": 4.776,
       "step": 66
     },
     {
       "epoch": 20.0,
-      "learning_rate": 1.0416666666666668e-05,
-      "loss": 114.062,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.82839965820312,
-      "eval_runtime": 0.5991,
-      "eval_samples_per_second": 76.778,
-      "eval_steps_per_second": 5.007,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.8253402709961,
-      "eval_runtime": 0.5961,
-      "eval_samples_per_second": 77.162,
-      "eval_steps_per_second": 5.032,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.82349395751953,
-      "eval_runtime": 0.7817,
-      "eval_samples_per_second": 58.847,
-      "eval_steps_per_second": 3.838,
       "step": 77
     },
     {
       "epoch": 22.86,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 114.5312,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.82068634033203,
-      "eval_runtime": 0.6071,
-      "eval_samples_per_second": 75.766,
-      "eval_steps_per_second": 4.941,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.81257629394531,
-      "eval_runtime": 0.6061,
-      "eval_samples_per_second": 75.891,
-      "eval_steps_per_second": 4.949,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.81000518798828,
-      "eval_runtime": 0.6011,
-      "eval_samples_per_second": 76.522,
-      "eval_steps_per_second": 4.991,
       "step": 87
     },
     {
       "epoch": 25.71,
-      "learning_rate": 6.25e-06,
-      "loss": 114.5216,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.80531311035156,
-      "eval_runtime": 0.5966,
-      "eval_samples_per_second": 77.098,
-      "eval_steps_per_second": 5.028,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.80321502685547,
-      "eval_runtime": 0.6162,
-      "eval_samples_per_second": 74.657,
-      "eval_steps_per_second": 4.869,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.803466796875,
-      "eval_runtime": 0.5991,
-      "eval_samples_per_second": 76.777,
-      "eval_steps_per_second": 5.007,
       "step": 98
     },
     {
       "epoch": 28.57,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 112.7612,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.7991714477539,
-      "eval_runtime": 0.6142,
-      "eval_samples_per_second": 74.9,
-      "eval_steps_per_second": 4.885,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.7939224243164,
-      "eval_runtime": 0.6141,
-      "eval_samples_per_second": 74.902,
-      "eval_steps_per_second": 4.885,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.79671478271484,
-      "eval_runtime": 0.6337,
-      "eval_samples_per_second": 72.594,
-      "eval_steps_per_second": 4.734,
       "step": 108
     },
     {
       "epoch": 31.43,
-      "learning_rate": 2.0833333333333334e-06,
-      "loss": 114.2748,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.79725646972656,
-      "eval_runtime": 0.6392,
-      "eval_samples_per_second": 71.97,
-      "eval_steps_per_second": 4.694,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.79711151123047,
-      "eval_runtime": 0.5956,
-      "eval_samples_per_second": 77.228,
-      "eval_steps_per_second": 5.037,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.7907943725586,
-      "eval_runtime": 0.5981,
-      "eval_samples_per_second": 76.906,
-      "eval_steps_per_second": 5.016,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 114.0708,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 113.79315948486328,
-      "eval_runtime": 0.5946,
-      "eval_samples_per_second": 77.358,
-      "eval_steps_per_second": 5.045,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
-      "train_loss": 113.75203348795573,
-      "train_runtime": 131.4365,
-      "train_samples_per_second": 64.822,
-      "train_steps_per_second": 0.913
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6752,
+      "eval_samples_per_second": 68.133,
+      "eval_steps_per_second": 4.443,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6336,
+      "eval_samples_per_second": 72.596,
+      "eval_steps_per_second": 4.734,
       "step": 7
     },
     {
       "epoch": 2.86,
+      "learning_rate": 1.3983050847457627e-05,
+      "loss": 125815215043379.2,
       "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.5891,
+      "eval_samples_per_second": 78.08,
+      "eval_steps_per_second": 5.092,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6282,
+      "eval_samples_per_second": 73.224,
+      "eval_steps_per_second": 4.775,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.7697,
+      "eval_samples_per_second": 59.765,
+      "eval_steps_per_second": 3.898,
       "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 1.2711864406779661e-05,
+      "loss": 125111108842291.2,
       "step": 20
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6382,
+      "eval_samples_per_second": 72.082,
+      "eval_steps_per_second": 4.701,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6992,
+      "eval_samples_per_second": 65.792,
+      "eval_steps_per_second": 4.291,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.5911,
+      "eval_samples_per_second": 77.815,
+      "eval_steps_per_second": 5.075,
       "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 1.1440677966101694e-05,
+      "loss": 123174816789299.2,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6712,
+      "eval_samples_per_second": 68.539,
+      "eval_steps_per_second": 4.47,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6397,
+      "eval_samples_per_second": 71.913,
+      "eval_steps_per_second": 4.69,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.5671,
+      "eval_samples_per_second": 81.109,
+      "eval_steps_per_second": 5.29,
       "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 1.016949152542373e-05,
+      "loss": 127795517089382.4,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6006,
+      "eval_samples_per_second": 76.585,
+      "eval_steps_per_second": 4.995,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6276,
+      "eval_samples_per_second": 73.289,
+      "eval_steps_per_second": 4.78,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.7082,
+      "eval_samples_per_second": 64.957,
+      "eval_steps_per_second": 4.236,
       "step": 49
     },
     {
       "epoch": 14.29,
+      "learning_rate": 8.898305084745763e-06,
+      "loss": 123834899575603.2,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6297,
+      "eval_samples_per_second": 73.056,
+      "eval_steps_per_second": 4.765,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.5916,
+      "eval_samples_per_second": 77.75,
+      "eval_steps_per_second": 5.071,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 72.253,
+      "eval_steps_per_second": 4.712,
       "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 7.627118644067796e-06,
+      "loss": 124803052312985.6,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.5896,
+      "eval_samples_per_second": 78.013,
+      "eval_steps_per_second": 5.088,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6182,
+      "eval_samples_per_second": 74.415,
+      "eval_steps_per_second": 4.853,
       "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 6.3559322033898304e-06,
+      "loss": 125771218472140.8,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6432,
+      "eval_samples_per_second": 71.522,
+      "eval_steps_per_second": 4.664,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6051,
+      "eval_samples_per_second": 76.016,
+      "eval_steps_per_second": 4.958,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6517,
+      "eval_samples_per_second": 70.59,
+      "eval_steps_per_second": 4.604,
       "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 5.084745762711865e-06,
+      "loss": 126299284701184.0,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6347,
+      "eval_samples_per_second": 72.481,
+      "eval_steps_per_second": 4.727,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6672,
+      "eval_samples_per_second": 68.95,
+      "eval_steps_per_second": 4.497,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.5776,
+      "eval_samples_per_second": 79.634,
+      "eval_steps_per_second": 5.194,
       "step": 87
     },
     {
       "epoch": 25.71,
+      "learning_rate": 3.813559322033898e-06,
+      "loss": 126299271279411.2,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6411,
+      "eval_samples_per_second": 71.747,
+      "eval_steps_per_second": 4.679,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.8482,
+      "eval_samples_per_second": 54.233,
+      "eval_steps_per_second": 3.537,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6537,
+      "eval_samples_per_second": 70.374,
+      "eval_steps_per_second": 4.59,
       "step": 98
     },
     {
       "epoch": 28.57,
+      "learning_rate": 2.5423728813559323e-06,
+      "loss": 124362979226419.2,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6962,
+      "eval_samples_per_second": 66.075,
+      "eval_steps_per_second": 4.309,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6326,
+      "eval_samples_per_second": 72.71,
+      "eval_steps_per_second": 4.742,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6402,
+      "eval_samples_per_second": 71.857,
+      "eval_steps_per_second": 4.686,
       "step": 108
     },
     {
       "epoch": 31.43,
+      "learning_rate": 1.2711864406779662e-06,
+      "loss": 126035251586662.4,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6121,
+      "eval_samples_per_second": 75.147,
+      "eval_steps_per_second": 4.901,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6086,
+      "eval_samples_per_second": 75.578,
+      "eval_steps_per_second": 4.929,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.6832,
+      "eval_samples_per_second": 67.335,
+      "eval_steps_per_second": 4.391,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 125815215043379.2,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 125514790469632.0,
+      "eval_runtime": 0.7702,
+      "eval_samples_per_second": 59.727,
+      "eval_steps_per_second": 3.895,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.0027429927092224e+16,
+      "train_loss": 125426485830178.14,
+      "train_runtime": 118.5658,
+      "train_samples_per_second": 71.859,
+      "train_steps_per_second": 1.012
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3df9ef77f964a231a079193edbe54fab4c39d9bd25184de47de575af773cd47
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:a91f88bea1e185b418ec30a052c8063d1bfa737392ffba8d69a2062f259c9369
 size 4728