End of training

Browse files

Files changed (8) hide show

README.md +114 -0
all_results.json +9 -0
config.json +230 -0
model.safetensors +3 -0
preprocessor_config.json +26 -0
test_results.json +9 -0
trainer_state.json +1177 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,114 @@

+---
+library_name: transformers
+license: cc-by-nc-4.0
+base_model: facebook/timesformer-base-finetuned-k400
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+- precision
+- recall
+- f1
+model-index:
+- name: Timesformer_WLASL_100_200_epochs_p20_SR_16
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Timesformer_WLASL_100_200_epochs_p20_SR_16
+This model is a fine-tuned version of [facebook/timesformer-base-finetuned-k400](https://huggingface.co/facebook/timesformer-base-finetuned-k400) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.2599
+- Top 1 Accuracy: 0.5828
+- Top 5 Accuracy: 0.7899
+- Top 10 Accuracy: 0.8698
+- Accuracy: 0.5828
+- Precision: 0.5806
+- Recall: 0.5828
+- F1: 0.5510
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 8
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- training_steps: 36000
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch   | Step | Validation Loss | Top 1 Accuracy | Top 5 Accuracy | Top 10 Accuracy | Accuracy | Precision | Recall | F1     |
+|:-------------:|:-------:|:----:|:---------------:|:--------------:|:--------------:|:---------------:|:--------:|:---------:|:------:|:------:|
+| 19.1155       | 0.005   | 180  | 4.6927          | 0.0089         | 0.0414         | 0.0888          | 0.0089   | 0.0155    | 0.0089 | 0.0105 |
+| 18.5538       | 1.0050  | 360  | 4.5821          | 0.0266         | 0.0769         | 0.1302          | 0.0266   | 0.0137    | 0.0266 | 0.0116 |
+| 17.5848       | 2.0050  | 540  | 4.3988          | 0.0562         | 0.1450         | 0.2633          | 0.0562   | 0.0486    | 0.0562 | 0.0390 |
+| 15.8283       | 3.0050  | 721  | 4.0516          | 0.1302         | 0.2959         | 0.4645          | 0.1302   | 0.1012    | 0.1302 | 0.0976 |
+| 13.3102       | 4.005   | 901  | 3.6150          | 0.2249         | 0.4704         | 0.6154          | 0.2249   | 0.1781    | 0.2249 | 0.1741 |
+| 11.2113       | 5.0050  | 1081 | 3.2389          | 0.2604         | 0.6065         | 0.7367          | 0.2604   | 0.2422    | 0.2604 | 0.2215 |
+| 8.898         | 6.0050  | 1261 | 2.8714          | 0.3757         | 0.6775         | 0.8166          | 0.3757   | 0.3584    | 0.3757 | 0.3324 |
+| 6.715         | 7.0050  | 1442 | 2.6518          | 0.4231         | 0.7249         | 0.8402          | 0.4231   | 0.3828    | 0.4231 | 0.3730 |
+| 4.8442        | 8.005   | 1622 | 2.3294          | 0.4645         | 0.7929         | 0.8876          | 0.4645   | 0.5077    | 0.4645 | 0.4377 |
+| 3.3825        | 9.0050  | 1802 | 2.1747          | 0.4911         | 0.7899         | 0.8964          | 0.4911   | 0.5436    | 0.4911 | 0.4654 |
+| 2.0471        | 10.0050 | 1982 | 1.9990          | 0.5148         | 0.8107         | 0.9053          | 0.5178   | 0.5871    | 0.5178 | 0.5057 |
+| 1.3242        | 11.0050 | 2163 | 1.8964          | 0.5473         | 0.8166         | 0.8935          | 0.5473   | 0.5822    | 0.5473 | 0.5199 |
+| 0.8746        | 12.005  | 2343 | 1.8222          | 0.5562         | 0.8254         | 0.9083          | 0.5562   | 0.5796    | 0.5562 | 0.5320 |
+| 0.5537        | 13.0050 | 2523 | 1.7525          | 0.5769         | 0.8343         | 0.9142          | 0.5769   | 0.5813    | 0.5769 | 0.5468 |
+| 0.4081        | 14.0050 | 2703 | 1.7351          | 0.5947         | 0.8136         | 0.8964          | 0.5947   | 0.6684    | 0.5947 | 0.5834 |
+| 0.17          | 15.0050 | 2884 | 1.6998          | 0.5592         | 0.8225         | 0.9083          | 0.5592   | 0.5763    | 0.5592 | 0.5342 |
+| 0.2053        | 16.005  | 3064 | 1.7340          | 0.5651         | 0.8343         | 0.9083          | 0.5651   | 0.6215    | 0.5651 | 0.5390 |
+| 0.1434        | 17.0050 | 3244 | 1.7350          | 0.6006         | 0.8432         | 0.9142          | 0.6006   | 0.6347    | 0.6006 | 0.5806 |
+| 0.1957        | 18.0050 | 3424 | 1.8179          | 0.5621         | 0.8373         | 0.9142          | 0.5621   | 0.6060    | 0.5621 | 0.5350 |
+| 0.1636        | 19.0050 | 3605 | 1.7831          | 0.6154         | 0.8225         | 0.8905          | 0.6154   | 0.6401    | 0.6154 | 0.5917 |
+| 0.0908        | 20.005  | 3785 | 1.7552          | 0.6213         | 0.8402         | 0.9053          | 0.6213   | 0.6504    | 0.6213 | 0.6014 |
+| 0.058         | 21.0050 | 3965 | 1.8422          | 0.6243         | 0.8254         | 0.9112          | 0.6213   | 0.6392    | 0.6213 | 0.5962 |
+| 0.0924        | 22.0050 | 4145 | 1.8347          | 0.6006         | 0.8225         | 0.9201          | 0.6006   | 0.6218    | 0.6006 | 0.5735 |
+| 0.0799        | 23.0050 | 4326 | 1.9650          | 0.6036         | 0.8107         | 0.8846          | 0.6036   | 0.6182    | 0.6036 | 0.5724 |
+| 0.176         | 24.005  | 4506 | 1.9326          | 0.5858         | 0.8402         | 0.9142          | 0.5858   | 0.6240    | 0.5858 | 0.5671 |
+| 0.0786        | 25.0050 | 4686 | 1.7753          | 0.6124         | 0.8491         | 0.9142          | 0.6124   | 0.6607    | 0.6124 | 0.5998 |
+| 0.242         | 26.0050 | 4866 | 2.0219          | 0.5769         | 0.7722         | 0.8876          | 0.5769   | 0.6337    | 0.5769 | 0.5552 |
+| 0.1767        | 27.0050 | 5047 | 1.9744          | 0.5828         | 0.8166         | 0.9024          | 0.5828   | 0.6330    | 0.5828 | 0.5721 |
+| 0.14          | 28.005  | 5227 | 2.1996          | 0.5769         | 0.7811         | 0.8609          | 0.5769   | 0.5983    | 0.5769 | 0.5430 |
+| 0.104         | 29.0050 | 5407 | 2.0881          | 0.5769         | 0.8166         | 0.8876          | 0.5769   | 0.6146    | 0.5769 | 0.5641 |
+| 0.1454        | 30.0050 | 5587 | 2.3394          | 0.5621         | 0.7959         | 0.8905          | 0.5621   | 0.6280    | 0.5621 | 0.5448 |
+| 0.2221        | 31.0050 | 5768 | 1.9360          | 0.5947         | 0.8225         | 0.9024          | 0.5947   | 0.6606    | 0.5947 | 0.5881 |
+| 0.1026        | 32.005  | 5948 | 2.0920          | 0.6036         | 0.8107         | 0.8935          | 0.6036   | 0.6376    | 0.6036 | 0.5832 |
+| 0.0968        | 33.0050 | 6128 | 2.2746          | 0.5740         | 0.8047         | 0.8846          | 0.5740   | 0.6308    | 0.5740 | 0.5542 |
+| 0.1864        | 34.0050 | 6308 | 2.2081          | 0.5888         | 0.8047         | 0.8698          | 0.5888   | 0.6394    | 0.5888 | 0.5704 |
+| 0.1353        | 35.0050 | 6489 | 2.1853          | 0.5799         | 0.8254         | 0.8935          | 0.5799   | 0.6133    | 0.5799 | 0.5636 |
+| 0.1618        | 36.005  | 6669 | 2.2661          | 0.5710         | 0.7959         | 0.8698          | 0.5710   | 0.6243    | 0.5710 | 0.5515 |
+| 0.259         | 37.0050 | 6849 | 2.3163          | 0.5740         | 0.7870         | 0.8580          | 0.5740   | 0.6088    | 0.5740 | 0.5459 |
+| 0.3394        | 38.0050 | 7029 | 2.0984          | 0.5769         | 0.7988         | 0.8905          | 0.5769   | 0.6154    | 0.5769 | 0.5614 |
+| 0.0833        | 39.0050 | 7210 | 2.2811          | 0.5533         | 0.8047         | 0.8698          | 0.5533   | 0.6051    | 0.5533 | 0.5328 |
+| 0.1259        | 40.005  | 7390 | 2.2599          | 0.5828         | 0.7899         | 0.8698          | 0.5828   | 0.5806    | 0.5828 | 0.5510 |
+### Framework versions
+- Transformers 4.46.1
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "accuracy": 0.5697674418604651,
+    "f1": 0.5384705303309955,
+    "precision": 0.5654485049833887,
+    "recall": 0.5697674418604651,
+    "top_10_accuracy": 0.9031007751937985,
+    "top_1_accuracy": 0.5697674418604651,
+    "top_5_accuracy": 0.8449612403100775
+}

config.json ADDED Viewed

	@@ -0,0 +1,230 @@

+{
+  "_name_or_path": "facebook/timesformer-base-finetuned-k400",
+  "architectures": [
+    "TimesformerForVideoClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "attention_type": "divided_space_time",
+  "drop_path_rate": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "accident",
+    "1": "africa",
+    "2": "all",
+    "3": "apple",
+    "4": "basketball",
+    "5": "bed",
+    "6": "before",
+    "7": "bird",
+    "8": "birthday",
+    "9": "black",
+    "10": "blue",
+    "11": "book",
+    "12": "bowling",
+    "13": "brown",
+    "14": "but",
+    "15": "can",
+    "16": "candy",
+    "17": "chair",
+    "18": "change",
+    "19": "cheat",
+    "20": "city",
+    "21": "clothes",
+    "22": "color",
+    "23": "computer",
+    "24": "cook",
+    "25": "cool",
+    "26": "corn",
+    "27": "cousin",
+    "28": "cow",
+    "29": "dance",
+    "30": "dark",
+    "31": "deaf",
+    "32": "decide",
+    "33": "doctor",
+    "34": "dog",
+    "35": "drink",
+    "36": "eat",
+    "37": "enjoy",
+    "38": "family",
+    "39": "fine",
+    "40": "finish",
+    "41": "fish",
+    "42": "forget",
+    "43": "full",
+    "44": "give",
+    "45": "go",
+    "46": "graduate",
+    "47": "hat",
+    "48": "hearing",
+    "49": "help",
+    "50": "hot",
+    "51": "how",
+    "52": "jacket",
+    "53": "kiss",
+    "54": "language",
+    "55": "last",
+    "56": "later",
+    "57": "letter",
+    "58": "like",
+    "59": "man",
+    "60": "many",
+    "61": "medicine",
+    "62": "meet",
+    "63": "mother",
+    "64": "need",
+    "65": "no",
+    "66": "now",
+    "67": "orange",
+    "68": "paint",
+    "69": "paper",
+    "70": "pink",
+    "71": "pizza",
+    "72": "play",
+    "73": "pull",
+    "74": "purple",
+    "75": "right",
+    "76": "same",
+    "77": "school",
+    "78": "secretary",
+    "79": "shirt",
+    "80": "short",
+    "81": "son",
+    "82": "study",
+    "83": "table",
+    "84": "tall",
+    "85": "tell",
+    "86": "thanksgiving",
+    "87": "thin",
+    "88": "thursday",
+    "89": "time",
+    "90": "walk",
+    "91": "want",
+    "92": "what",
+    "93": "white",
+    "94": "who",
+    "95": "woman",
+    "96": "work",
+    "97": "wrong",
+    "98": "year",
+    "99": "yes"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "accident": 0,
+    "africa": 1,
+    "all": 2,
+    "apple": 3,
+    "basketball": 4,
+    "bed": 5,
+    "before": 6,
+    "bird": 7,
+    "birthday": 8,
+    "black": 9,
+    "blue": 10,
+    "book": 11,
+    "bowling": 12,
+    "brown": 13,
+    "but": 14,
+    "can": 15,
+    "candy": 16,
+    "chair": 17,
+    "change": 18,
+    "cheat": 19,
+    "city": 20,
+    "clothes": 21,
+    "color": 22,
+    "computer": 23,
+    "cook": 24,
+    "cool": 25,
+    "corn": 26,
+    "cousin": 27,
+    "cow": 28,
+    "dance": 29,
+    "dark": 30,
+    "deaf": 31,
+    "decide": 32,
+    "doctor": 33,
+    "dog": 34,
+    "drink": 35,
+    "eat": 36,
+    "enjoy": 37,
+    "family": 38,
+    "fine": 39,
+    "finish": 40,
+    "fish": 41,
+    "forget": 42,
+    "full": 43,
+    "give": 44,
+    "go": 45,
+    "graduate": 46,
+    "hat": 47,
+    "hearing": 48,
+    "help": 49,
+    "hot": 50,
+    "how": 51,
+    "jacket": 52,
+    "kiss": 53,
+    "language": 54,
+    "last": 55,
+    "later": 56,
+    "letter": 57,
+    "like": 58,
+    "man": 59,
+    "many": 60,
+    "medicine": 61,
+    "meet": 62,
+    "mother": 63,
+    "need": 64,
+    "no": 65,
+    "now": 66,
+    "orange": 67,
+    "paint": 68,
+    "paper": 69,
+    "pink": 70,
+    "pizza": 71,
+    "play": 72,
+    "pull": 73,
+    "purple": 74,
+    "right": 75,
+    "same": 76,
+    "school": 77,
+    "secretary": 78,
+    "shirt": 79,
+    "short": 80,
+    "son": 81,
+    "study": 82,
+    "table": 83,
+    "tall": 84,
+    "tell": 85,
+    "thanksgiving": 86,
+    "thin": 87,
+    "thursday": 88,
+    "time": 89,
+    "walk": 90,
+    "want": 91,
+    "what": 92,
+    "white": 93,
+    "who": 94,
+    "woman": 95,
+    "work": 96,
+    "wrong": 97,
+    "year": 98,
+    "yes": 99
+  },
+  "layer_norm_eps": 1e-06,
+  "model_type": "timesformer",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_frames": 8,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ad548c8b5ca8471c2a8d5f3fd2a642106b1a7a930abf51fb3b89dc171e331fb
+size 485373720

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.45,
+    0.45,
+    0.45
+  ],
+  "image_processor_type": "VideoMAEImageProcessor",
+  "image_std": [
+    0.225,
+    0.225,
+    0.225
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "accuracy": 0.5697674418604651,
+    "f1": 0.5384705303309955,
+    "precision": 0.5654485049833887,
+    "recall": 0.5697674418604651,
+    "top_10_accuracy": 0.9031007751937985,
+    "top_1_accuracy": 0.5697674418604651,
+    "top_5_accuracy": 0.8449612403100775
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1177 @@

+{
+  "best_metric": 0.621301775147929,
+  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/Timesformer_WLASL_100_200_epochs_p20_SR_16/checkpoint-3785",
+  "epoch": 40.005,
+  "eval_steps": 500,
+  "global_step": 7390,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002777777777777778,
+      "grad_norm": 50.3983268737793,
+      "learning_rate": 1.3194444444444444e-06,
+      "loss": 19.1155,
+      "step": 100
+    },
+    {
+      "epoch": 0.005,
+      "eval_accuracy": 0.008875739644970414,
+      "eval_f1": 0.010524091293322064,
+      "eval_loss": 4.692718029022217,
+      "eval_precision": 0.015532544378698224,
+      "eval_recall": 0.008875739644970414,
+      "eval_runtime": 11.6929,
+      "eval_samples_per_second": 28.906,
+      "eval_steps_per_second": 14.453,
+      "eval_top_10_accuracy": 0.08875739644970414,
+      "eval_top_1_accuracy": 0.008875739644970414,
+      "eval_top_5_accuracy": 0.04142011834319527,
+      "step": 180
+    },
+    {
+      "epoch": 1.000548611111111,
+      "grad_norm": 49.16985321044922,
+      "learning_rate": 2.6944444444444444e-06,
+      "loss": 18.7026,
+      "step": 200
+    },
+    {
+      "epoch": 1.0033263888888888,
+      "grad_norm": 54.74333572387695,
+      "learning_rate": 4.083333333333334e-06,
+      "loss": 18.5538,
+      "step": 300
+    },
+    {
+      "epoch": 1.0049930555555555,
+      "eval_accuracy": 0.026627218934911243,
+      "eval_f1": 0.01160748704902843,
+      "eval_loss": 4.582146644592285,
+      "eval_precision": 0.013707884027829569,
+      "eval_recall": 0.026627218934911243,
+      "eval_runtime": 11.4919,
+      "eval_samples_per_second": 29.412,
+      "eval_steps_per_second": 14.706,
+      "eval_top_10_accuracy": 0.1301775147928994,
+      "eval_top_1_accuracy": 0.026627218934911243,
+      "eval_top_5_accuracy": 0.07692307692307693,
+      "step": 360
+    },
+    {
+      "epoch": 2.001097222222222,
+      "grad_norm": 49.70963668823242,
+      "learning_rate": 5.472222222222223e-06,
+      "loss": 18.0616,
+      "step": 400
+    },
+    {
+      "epoch": 2.003875,
+      "grad_norm": 52.42399978637695,
+      "learning_rate": 6.861111111111111e-06,
+      "loss": 17.5848,
+      "step": 500
+    },
+    {
+      "epoch": 2.004986111111111,
+      "eval_accuracy": 0.05621301775147929,
+      "eval_f1": 0.03896742883758426,
+      "eval_loss": 4.3987812995910645,
+      "eval_precision": 0.04859307359307359,
+      "eval_recall": 0.05621301775147929,
+      "eval_runtime": 12.0994,
+      "eval_samples_per_second": 27.935,
+      "eval_steps_per_second": 13.968,
+      "eval_top_10_accuracy": 0.26331360946745563,
+      "eval_top_1_accuracy": 0.05621301775147929,
+      "eval_top_5_accuracy": 0.14497041420118342,
+      "step": 540
+    },
+    {
+      "epoch": 3.0016458333333333,
+      "grad_norm": 54.07436752319336,
+      "learning_rate": 8.25e-06,
+      "loss": 16.7062,
+      "step": 600
+    },
+    {
+      "epoch": 3.004423611111111,
+      "grad_norm": 57.311805725097656,
+      "learning_rate": 9.625e-06,
+      "loss": 15.8283,
+      "step": 700
+    },
+    {
+      "epoch": 3.0050069444444443,
+      "eval_accuracy": 0.1301775147928994,
+      "eval_f1": 0.09761319747359186,
+      "eval_loss": 4.051616191864014,
+      "eval_precision": 0.10124132555089023,
+      "eval_recall": 0.1301775147928994,
+      "eval_runtime": 12.2039,
+      "eval_samples_per_second": 27.696,
+      "eval_steps_per_second": 13.848,
+      "eval_top_10_accuracy": 0.46449704142011833,
+      "eval_top_1_accuracy": 0.1301775147928994,
+      "eval_top_5_accuracy": 0.2958579881656805,
+      "step": 721
+    },
+    {
+      "epoch": 4.002194444444444,
+      "grad_norm": 55.184627532958984,
+      "learning_rate": 1.1013888888888889e-05,
+      "loss": 14.1811,
+      "step": 800
+    },
+    {
+      "epoch": 4.004972222222222,
+      "grad_norm": 62.36821746826172,
+      "learning_rate": 1.2402777777777778e-05,
+      "loss": 13.3102,
+      "step": 900
+    },
+    {
+      "epoch": 4.005,
+      "eval_accuracy": 0.22485207100591717,
+      "eval_f1": 0.17408013159057364,
+      "eval_loss": 3.615004062652588,
+      "eval_precision": 0.17807893898652688,
+      "eval_recall": 0.22485207100591717,
+      "eval_runtime": 12.3307,
+      "eval_samples_per_second": 27.411,
+      "eval_steps_per_second": 13.706,
+      "eval_top_10_accuracy": 0.6153846153846154,
+      "eval_top_1_accuracy": 0.22485207100591717,
+      "eval_top_5_accuracy": 0.47041420118343197,
+      "step": 901
+    },
+    {
+      "epoch": 5.002743055555555,
+      "grad_norm": 59.29837417602539,
+      "learning_rate": 1.3791666666666667e-05,
+      "loss": 11.2113,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0049930555555555,
+      "eval_accuracy": 0.2603550295857988,
+      "eval_f1": 0.2214583903933016,
+      "eval_loss": 3.238880157470703,
+      "eval_precision": 0.24217353159660848,
+      "eval_recall": 0.2603550295857988,
+      "eval_runtime": 11.9439,
+      "eval_samples_per_second": 28.299,
+      "eval_steps_per_second": 14.149,
+      "eval_top_10_accuracy": 0.7366863905325444,
+      "eval_top_1_accuracy": 0.2603550295857988,
+      "eval_top_5_accuracy": 0.606508875739645,
+      "step": 1081
+    },
+    {
+      "epoch": 6.0005138888888885,
+      "grad_norm": 55.69058609008789,
+      "learning_rate": 1.5180555555555556e-05,
+      "loss": 10.4522,
+      "step": 1100
+    },
+    {
+      "epoch": 6.003291666666667,
+      "grad_norm": 61.44662094116211,
+      "learning_rate": 1.6569444444444447e-05,
+      "loss": 8.898,
+      "step": 1200
+    },
+    {
+      "epoch": 6.004986111111111,
+      "eval_accuracy": 0.3757396449704142,
+      "eval_f1": 0.33238789867749136,
+      "eval_loss": 2.8713691234588623,
+      "eval_precision": 0.358355869968296,
+      "eval_recall": 0.3757396449704142,
+      "eval_runtime": 11.7736,
+      "eval_samples_per_second": 28.708,
+      "eval_steps_per_second": 14.354,
+      "eval_top_10_accuracy": 0.8165680473372781,
+      "eval_top_1_accuracy": 0.3757396449704142,
+      "eval_top_5_accuracy": 0.6775147928994083,
+      "step": 1261
+    },
+    {
+      "epoch": 7.0010625,
+      "grad_norm": 52.68465042114258,
+      "learning_rate": 1.7958333333333334e-05,
+      "loss": 7.9604,
+      "step": 1300
+    },
+    {
+      "epoch": 7.003840277777778,
+      "grad_norm": 47.81911849975586,
+      "learning_rate": 1.934722222222222e-05,
+      "loss": 6.715,
+      "step": 1400
+    },
+    {
+      "epoch": 7.005006944444444,
+      "eval_accuracy": 0.4230769230769231,
+      "eval_f1": 0.372985971950469,
+      "eval_loss": 2.6518218517303467,
+      "eval_precision": 0.3827507962123347,
+      "eval_recall": 0.4230769230769231,
+      "eval_runtime": 11.7923,
+      "eval_samples_per_second": 28.663,
+      "eval_steps_per_second": 14.331,
+      "eval_top_10_accuracy": 0.8402366863905325,
+      "eval_top_1_accuracy": 0.4230769230769231,
+      "eval_top_5_accuracy": 0.7248520710059172,
+      "step": 1442
+    },
+    {
+      "epoch": 8.001611111111112,
+      "grad_norm": 57.77692413330078,
+      "learning_rate": 2.0736111111111112e-05,
+      "loss": 5.661,
+      "step": 1500
+    },
+    {
+      "epoch": 8.004388888888888,
+      "grad_norm": 46.77447509765625,
+      "learning_rate": 2.2125000000000002e-05,
+      "loss": 4.8442,
+      "step": 1600
+    },
+    {
+      "epoch": 8.005,
+      "eval_accuracy": 0.46449704142011833,
+      "eval_f1": 0.4376789876789876,
+      "eval_loss": 2.329350471496582,
+      "eval_precision": 0.5076618893926585,
+      "eval_recall": 0.46449704142011833,
+      "eval_runtime": 11.6897,
+      "eval_samples_per_second": 28.914,
+      "eval_steps_per_second": 14.457,
+      "eval_top_10_accuracy": 0.8875739644970414,
+      "eval_top_1_accuracy": 0.46449704142011833,
+      "eval_top_5_accuracy": 0.7928994082840237,
+      "step": 1622
+    },
+    {
+      "epoch": 9.002159722222222,
+      "grad_norm": 37.64653396606445,
+      "learning_rate": 2.351388888888889e-05,
+      "loss": 3.5341,
+      "step": 1700
+    },
+    {
+      "epoch": 9.0049375,
+      "grad_norm": 37.44438171386719,
+      "learning_rate": 2.4902777777777777e-05,
+      "loss": 3.3825,
+      "step": 1800
+    },
+    {
+      "epoch": 9.004993055555556,
+      "eval_accuracy": 0.4911242603550296,
+      "eval_f1": 0.46539428684399103,
+      "eval_loss": 2.174729347229004,
+      "eval_precision": 0.5436003099464638,
+      "eval_recall": 0.4911242603550296,
+      "eval_runtime": 11.6633,
+      "eval_samples_per_second": 28.98,
+      "eval_steps_per_second": 14.49,
+      "eval_top_10_accuracy": 0.8964497041420119,
+      "eval_top_1_accuracy": 0.4911242603550296,
+      "eval_top_5_accuracy": 0.7899408284023669,
+      "step": 1802
+    },
+    {
+      "epoch": 10.002708333333333,
+      "grad_norm": 41.797882080078125,
+      "learning_rate": 2.629166666666667e-05,
+      "loss": 2.0471,
+      "step": 1900
+    },
+    {
+      "epoch": 10.00498611111111,
+      "eval_accuracy": 0.5177514792899408,
+      "eval_f1": 0.5056634660885672,
+      "eval_loss": 1.9989553689956665,
+      "eval_precision": 0.5871284164553396,
+      "eval_recall": 0.5177514792899408,
+      "eval_runtime": 11.7241,
+      "eval_samples_per_second": 28.83,
+      "eval_steps_per_second": 14.415,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.514792899408284,
+      "eval_top_5_accuracy": 0.8106508875739645,
+      "step": 1982
+    },
+    {
+      "epoch": 11.000479166666667,
+      "grad_norm": 35.05084228515625,
+      "learning_rate": 2.7680555555555558e-05,
+      "loss": 2.1684,
+      "step": 2000
+    },
+    {
+      "epoch": 11.003256944444445,
+      "grad_norm": 32.317020416259766,
+      "learning_rate": 2.9069444444444442e-05,
+      "loss": 1.3242,
+      "step": 2100
+    },
+    {
+      "epoch": 11.005006944444444,
+      "eval_accuracy": 0.5473372781065089,
+      "eval_f1": 0.5199061622138544,
+      "eval_loss": 1.896411418914795,
+      "eval_precision": 0.582156945618484,
+      "eval_recall": 0.5473372781065089,
+      "eval_runtime": 11.653,
+      "eval_samples_per_second": 29.005,
+      "eval_steps_per_second": 14.503,
+      "eval_top_10_accuracy": 0.893491124260355,
+      "eval_top_1_accuracy": 0.5473372781065089,
+      "eval_top_5_accuracy": 0.8165680473372781,
+      "step": 2163
+    },
+    {
+      "epoch": 12.001027777777777,
+      "grad_norm": 20.89638900756836,
+      "learning_rate": 3.0458333333333333e-05,
+      "loss": 1.244,
+      "step": 2200
+    },
+    {
+      "epoch": 12.003805555555555,
+      "grad_norm": 25.03165054321289,
+      "learning_rate": 3.184722222222222e-05,
+      "loss": 0.8746,
+      "step": 2300
+    },
+    {
+      "epoch": 12.005,
+      "eval_accuracy": 0.5562130177514792,
+      "eval_f1": 0.531996208919286,
+      "eval_loss": 1.8221518993377686,
+      "eval_precision": 0.5796251825097979,
+      "eval_recall": 0.5562130177514792,
+      "eval_runtime": 11.5373,
+      "eval_samples_per_second": 29.296,
+      "eval_steps_per_second": 14.648,
+      "eval_top_10_accuracy": 0.908284023668639,
+      "eval_top_1_accuracy": 0.5562130177514792,
+      "eval_top_5_accuracy": 0.8254437869822485,
+      "step": 2343
+    },
+    {
+      "epoch": 13.00157638888889,
+      "grad_norm": 30.899749755859375,
+      "learning_rate": 3.3236111111111114e-05,
+      "loss": 0.6561,
+      "step": 2400
+    },
+    {
+      "epoch": 13.004354166666667,
+      "grad_norm": 9.373037338256836,
+      "learning_rate": 3.4625e-05,
+      "loss": 0.5537,
+      "step": 2500
+    },
+    {
+      "epoch": 13.004993055555556,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5467897487128257,
+      "eval_loss": 1.7525219917297363,
+      "eval_precision": 0.5813186813186813,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 11.5774,
+      "eval_samples_per_second": 29.195,
+      "eval_steps_per_second": 14.597,
+      "eval_top_10_accuracy": 0.9142011834319527,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.834319526627219,
+      "step": 2523
+    },
+    {
+      "epoch": 14.002125,
+      "grad_norm": 4.441218376159668,
+      "learning_rate": 3.601388888888889e-05,
+      "loss": 0.3664,
+      "step": 2600
+    },
+    {
+      "epoch": 14.004902777777778,
+      "grad_norm": 39.638824462890625,
+      "learning_rate": 3.740277777777778e-05,
+      "loss": 0.4081,
+      "step": 2700
+    },
+    {
+      "epoch": 14.00498611111111,
+      "eval_accuracy": 0.5946745562130178,
+      "eval_f1": 0.5833541540642132,
+      "eval_loss": 1.7350622415542603,
+      "eval_precision": 0.6683572837418991,
+      "eval_recall": 0.5946745562130178,
+      "eval_runtime": 12.1445,
+      "eval_samples_per_second": 27.831,
+      "eval_steps_per_second": 13.916,
+      "eval_top_10_accuracy": 0.8964497041420119,
+      "eval_top_1_accuracy": 0.5946745562130178,
+      "eval_top_5_accuracy": 0.8136094674556213,
+      "step": 2703
+    },
+    {
+      "epoch": 15.002673611111112,
+      "grad_norm": 7.7865376472473145,
+      "learning_rate": 3.879166666666667e-05,
+      "loss": 0.17,
+      "step": 2800
+    },
+    {
+      "epoch": 15.005006944444444,
+      "eval_accuracy": 0.5591715976331361,
+      "eval_f1": 0.5341941753184356,
+      "eval_loss": 1.6997803449630737,
+      "eval_precision": 0.5763416071108378,
+      "eval_recall": 0.5591715976331361,
+      "eval_runtime": 12.1127,
+      "eval_samples_per_second": 27.905,
+      "eval_steps_per_second": 13.952,
+      "eval_top_10_accuracy": 0.908284023668639,
+      "eval_top_1_accuracy": 0.5591715976331361,
+      "eval_top_5_accuracy": 0.8224852071005917,
+      "step": 2884
+    },
+    {
+      "epoch": 16.000444444444444,
+      "grad_norm": 7.096034049987793,
+      "learning_rate": 4.018055555555556e-05,
+      "loss": 0.3333,
+      "step": 2900
+    },
+    {
+      "epoch": 16.003222222222224,
+      "grad_norm": 8.13654613494873,
+      "learning_rate": 4.1569444444444444e-05,
+      "loss": 0.2053,
+      "step": 3000
+    },
+    {
+      "epoch": 16.005,
+      "eval_accuracy": 0.5650887573964497,
+      "eval_f1": 0.5390417275032658,
+      "eval_loss": 1.7339895963668823,
+      "eval_precision": 0.6214919695688926,
+      "eval_recall": 0.5650887573964497,
+      "eval_runtime": 12.1867,
+      "eval_samples_per_second": 27.735,
+      "eval_steps_per_second": 13.868,
+      "eval_top_10_accuracy": 0.908284023668639,
+      "eval_top_1_accuracy": 0.5650887573964497,
+      "eval_top_5_accuracy": 0.834319526627219,
+      "step": 3064
+    },
+    {
+      "epoch": 17.000993055555554,
+      "grad_norm": 2.6876680850982666,
+      "learning_rate": 4.295833333333333e-05,
+      "loss": 0.1874,
+      "step": 3100
+    },
+    {
+      "epoch": 17.003770833333334,
+      "grad_norm": 29.59245491027832,
+      "learning_rate": 4.4347222222222226e-05,
+      "loss": 0.1434,
+      "step": 3200
+    },
+    {
+      "epoch": 17.004993055555556,
+      "eval_accuracy": 0.6005917159763313,
+      "eval_f1": 0.5806121557600847,
+      "eval_loss": 1.7350496053695679,
+      "eval_precision": 0.6346953096213452,
+      "eval_recall": 0.6005917159763313,
+      "eval_runtime": 12.2719,
+      "eval_samples_per_second": 27.543,
+      "eval_steps_per_second": 13.771,
+      "eval_top_10_accuracy": 0.9142011834319527,
+      "eval_top_1_accuracy": 0.6005917159763313,
+      "eval_top_5_accuracy": 0.8431952662721893,
+      "step": 3244
+    },
+    {
+      "epoch": 18.001541666666668,
+      "grad_norm": 0.8009536266326904,
+      "learning_rate": 4.573611111111111e-05,
+      "loss": 0.0921,
+      "step": 3300
+    },
+    {
+      "epoch": 18.004319444444445,
+      "grad_norm": 2.7831170558929443,
+      "learning_rate": 4.7125e-05,
+      "loss": 0.1957,
+      "step": 3400
+    },
+    {
+      "epoch": 18.004986111111112,
+      "eval_accuracy": 0.5621301775147929,
+      "eval_f1": 0.5349809460756207,
+      "eval_loss": 1.8179223537445068,
+      "eval_precision": 0.6059920848382387,
+      "eval_recall": 0.5621301775147929,
+      "eval_runtime": 12.0029,
+      "eval_samples_per_second": 28.16,
+      "eval_steps_per_second": 14.08,
+      "eval_top_10_accuracy": 0.9142011834319527,
+      "eval_top_1_accuracy": 0.5621301775147929,
+      "eval_top_5_accuracy": 0.8372781065088757,
+      "step": 3424
+    },
+    {
+      "epoch": 19.00209027777778,
+      "grad_norm": 0.349692165851593,
+      "learning_rate": 4.8513888888888894e-05,
+      "loss": 0.1161,
+      "step": 3500
+    },
+    {
+      "epoch": 19.004868055555555,
+      "grad_norm": 86.96188354492188,
+      "learning_rate": 4.990277777777778e-05,
+      "loss": 0.1636,
+      "step": 3600
+    },
+    {
+      "epoch": 19.005006944444446,
+      "eval_accuracy": 0.6153846153846154,
+      "eval_f1": 0.5916679966975824,
+      "eval_loss": 1.7831283807754517,
+      "eval_precision": 0.6401178949255872,
+      "eval_recall": 0.6153846153846154,
+      "eval_runtime": 11.9167,
+      "eval_samples_per_second": 28.364,
+      "eval_steps_per_second": 14.182,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.6153846153846154,
+      "eval_top_5_accuracy": 0.8224852071005917,
+      "step": 3605
+    },
+    {
+      "epoch": 20.00263888888889,
+      "grad_norm": 0.18171709775924683,
+      "learning_rate": 4.985648148148148e-05,
+      "loss": 0.0908,
+      "step": 3700
+    },
+    {
+      "epoch": 20.005,
+      "eval_accuracy": 0.621301775147929,
+      "eval_f1": 0.6014277142975367,
+      "eval_loss": 1.7552212476730347,
+      "eval_precision": 0.6504156100309946,
+      "eval_recall": 0.621301775147929,
+      "eval_runtime": 11.9034,
+      "eval_samples_per_second": 28.395,
+      "eval_steps_per_second": 14.198,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.621301775147929,
+      "eval_top_5_accuracy": 0.8402366863905325,
+      "step": 3785
+    },
+    {
+      "epoch": 21.000409722222223,
+      "grad_norm": 32.656211853027344,
+      "learning_rate": 4.970216049382716e-05,
+      "loss": 0.1217,
+      "step": 3800
+    },
+    {
+      "epoch": 21.0031875,
+      "grad_norm": 0.07043986022472382,
+      "learning_rate": 4.954783950617284e-05,
+      "loss": 0.058,
+      "step": 3900
+    },
+    {
+      "epoch": 21.004993055555556,
+      "eval_accuracy": 0.621301775147929,
+      "eval_f1": 0.5961879507737495,
+      "eval_loss": 1.8422198295593262,
+      "eval_precision": 0.6392187940264863,
+      "eval_recall": 0.621301775147929,
+      "eval_runtime": 11.7783,
+      "eval_samples_per_second": 28.697,
+      "eval_steps_per_second": 14.348,
+      "eval_top_10_accuracy": 0.9112426035502958,
+      "eval_top_1_accuracy": 0.6242603550295858,
+      "eval_top_5_accuracy": 0.8254437869822485,
+      "step": 3965
+    },
+    {
+      "epoch": 22.000958333333333,
+      "grad_norm": 0.16647548973560333,
+      "learning_rate": 4.939351851851852e-05,
+      "loss": 0.1357,
+      "step": 4000
+    },
+    {
+      "epoch": 22.00373611111111,
+      "grad_norm": 0.13775382936000824,
+      "learning_rate": 4.92391975308642e-05,
+      "loss": 0.0924,
+      "step": 4100
+    },
+    {
+      "epoch": 22.004986111111112,
+      "eval_accuracy": 0.6005917159763313,
+      "eval_f1": 0.5735153735153736,
+      "eval_loss": 1.834716796875,
+      "eval_precision": 0.6217596506058044,
+      "eval_recall": 0.6005917159763313,
+      "eval_runtime": 11.8787,
+      "eval_samples_per_second": 28.454,
+      "eval_steps_per_second": 14.227,
+      "eval_top_10_accuracy": 0.9201183431952663,
+      "eval_top_1_accuracy": 0.6005917159763313,
+      "eval_top_5_accuracy": 0.8224852071005917,
+      "step": 4145
+    },
+    {
+      "epoch": 23.001506944444444,
+      "grad_norm": 1.0737590789794922,
+      "learning_rate": 4.908487654320988e-05,
+      "loss": 0.102,
+      "step": 4200
+    },
+    {
+      "epoch": 23.004284722222224,
+      "grad_norm": 3.3763539791107178,
+      "learning_rate": 4.893055555555556e-05,
+      "loss": 0.0799,
+      "step": 4300
+    },
+    {
+      "epoch": 23.005006944444446,
+      "eval_accuracy": 0.6035502958579881,
+      "eval_f1": 0.572392564700257,
+      "eval_loss": 1.9649921655654907,
+      "eval_precision": 0.6182439355516278,
+      "eval_recall": 0.6035502958579881,
+      "eval_runtime": 12.1311,
+      "eval_samples_per_second": 27.862,
+      "eval_steps_per_second": 13.931,
+      "eval_top_10_accuracy": 0.8846153846153846,
+      "eval_top_1_accuracy": 0.6035502958579881,
+      "eval_top_5_accuracy": 0.8106508875739645,
+      "step": 4326
+    },
+    {
+      "epoch": 24.002055555555554,
+      "grad_norm": 116.17411804199219,
+      "learning_rate": 4.877623456790124e-05,
+      "loss": 0.1349,
+      "step": 4400
+    },
+    {
+      "epoch": 24.004833333333334,
+      "grad_norm": 47.67039108276367,
+      "learning_rate": 4.8621913580246915e-05,
+      "loss": 0.176,
+      "step": 4500
+    },
+    {
+      "epoch": 24.005,
+      "eval_accuracy": 0.5857988165680473,
+      "eval_f1": 0.5670846247769326,
+      "eval_loss": 1.9325687885284424,
+      "eval_precision": 0.6240464663541586,
+      "eval_recall": 0.5857988165680473,
+      "eval_runtime": 12.1023,
+      "eval_samples_per_second": 27.929,
+      "eval_steps_per_second": 13.964,
+      "eval_top_10_accuracy": 0.9142011834319527,
+      "eval_top_1_accuracy": 0.5857988165680473,
+      "eval_top_5_accuracy": 0.8402366863905325,
+      "step": 4506
+    },
+    {
+      "epoch": 25.002604166666668,
+      "grad_norm": 0.11518964916467667,
+      "learning_rate": 4.846759259259259e-05,
+      "loss": 0.0786,
+      "step": 4600
+    },
+    {
+      "epoch": 25.004993055555556,
+      "eval_accuracy": 0.6124260355029586,
+      "eval_f1": 0.599836816700722,
+      "eval_loss": 1.775345802307129,
+      "eval_precision": 0.660682586644125,
+      "eval_recall": 0.6124260355029586,
+      "eval_runtime": 11.4818,
+      "eval_samples_per_second": 29.438,
+      "eval_steps_per_second": 14.719,
+      "eval_top_10_accuracy": 0.9142011834319527,
+      "eval_top_1_accuracy": 0.6124260355029586,
+      "eval_top_5_accuracy": 0.849112426035503,
+      "step": 4686
+    },
+    {
+      "epoch": 26.000375,
+      "grad_norm": 0.5315603017807007,
+      "learning_rate": 4.831327160493828e-05,
+      "loss": 0.2613,
+      "step": 4700
+    },
+    {
+      "epoch": 26.00315277777778,
+      "grad_norm": 0.860506534576416,
+      "learning_rate": 4.81604938271605e-05,
+      "loss": 0.242,
+      "step": 4800
+    },
+    {
+      "epoch": 26.004986111111112,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5552139674920741,
+      "eval_loss": 2.021881580352783,
+      "eval_precision": 0.6336890673429134,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 11.9203,
+      "eval_samples_per_second": 28.355,
+      "eval_steps_per_second": 14.177,
+      "eval_top_10_accuracy": 0.8875739644970414,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.772189349112426,
+      "step": 4866
+    },
+    {
+      "epoch": 27.000923611111112,
+      "grad_norm": 5.388744354248047,
+      "learning_rate": 4.8006172839506177e-05,
+      "loss": 0.1656,
+      "step": 4900
+    },
+    {
+      "epoch": 27.00370138888889,
+      "grad_norm": 2.032120704650879,
+      "learning_rate": 4.7851851851851854e-05,
+      "loss": 0.1767,
+      "step": 5000
+    },
+    {
+      "epoch": 27.005006944444446,
+      "eval_accuracy": 0.5828402366863905,
+      "eval_f1": 0.5721016163323855,
+      "eval_loss": 1.9743586778640747,
+      "eval_precision": 0.6330223031406463,
+      "eval_recall": 0.5828402366863905,
+      "eval_runtime": 11.9635,
+      "eval_samples_per_second": 28.253,
+      "eval_steps_per_second": 14.126,
+      "eval_top_10_accuracy": 0.9023668639053254,
+      "eval_top_1_accuracy": 0.5828402366863905,
+      "eval_top_5_accuracy": 0.8165680473372781,
+      "step": 5047
+    },
+    {
+      "epoch": 28.001472222222223,
+      "grad_norm": 1.4519288539886475,
+      "learning_rate": 4.769753086419753e-05,
+      "loss": 0.19,
+      "step": 5100
+    },
+    {
+      "epoch": 28.00425,
+      "grad_norm": 7.525012016296387,
+      "learning_rate": 4.754320987654321e-05,
+      "loss": 0.14,
+      "step": 5200
+    },
+    {
+      "epoch": 28.005,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5429622288219573,
+      "eval_loss": 2.1995532512664795,
+      "eval_precision": 0.5982988165680473,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 11.6103,
+      "eval_samples_per_second": 29.112,
+      "eval_steps_per_second": 14.556,
+      "eval_top_10_accuracy": 0.8609467455621301,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.7810650887573964,
+      "step": 5227
+    },
+    {
+      "epoch": 29.002020833333333,
+      "grad_norm": 0.7301017045974731,
+      "learning_rate": 4.7388888888888894e-05,
+      "loss": 0.2472,
+      "step": 5300
+    },
+    {
+      "epoch": 29.00479861111111,
+      "grad_norm": 0.6413145065307617,
+      "learning_rate": 4.723456790123457e-05,
+      "loss": 0.104,
+      "step": 5400
+    },
+    {
+      "epoch": 29.004993055555556,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5640588044434198,
+      "eval_loss": 2.0880820751190186,
+      "eval_precision": 0.6145991828684136,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 11.4084,
+      "eval_samples_per_second": 29.627,
+      "eval_steps_per_second": 14.814,
+      "eval_top_10_accuracy": 0.8875739644970414,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.8165680473372781,
+      "step": 5407
+    },
+    {
+      "epoch": 30.002569444444443,
+      "grad_norm": 0.333312064409256,
+      "learning_rate": 4.708024691358025e-05,
+      "loss": 0.1454,
+      "step": 5500
+    },
+    {
+      "epoch": 30.004986111111112,
+      "eval_accuracy": 0.5621301775147929,
+      "eval_f1": 0.5447567389875081,
+      "eval_loss": 2.33941388130188,
+      "eval_precision": 0.628030303030303,
+      "eval_recall": 0.5621301775147929,
+      "eval_runtime": 12.0785,
+      "eval_samples_per_second": 27.984,
+      "eval_steps_per_second": 13.992,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.5621301775147929,
+      "eval_top_5_accuracy": 0.7958579881656804,
+      "step": 5587
+    },
+    {
+      "epoch": 31.000340277777777,
+      "grad_norm": 0.10098100453615189,
+      "learning_rate": 4.692592592592593e-05,
+      "loss": 0.1388,
+      "step": 5600
+    },
+    {
+      "epoch": 31.003118055555557,
+      "grad_norm": 0.03804658353328705,
+      "learning_rate": 4.6771604938271605e-05,
+      "loss": 0.2221,
+      "step": 5700
+    },
+    {
+      "epoch": 31.005006944444446,
+      "eval_accuracy": 0.5946745562130178,
+      "eval_f1": 0.5881447119612799,
+      "eval_loss": 1.9360294342041016,
+      "eval_precision": 0.6606297548605241,
+      "eval_recall": 0.5946745562130178,
+      "eval_runtime": 11.5488,
+      "eval_samples_per_second": 29.267,
+      "eval_steps_per_second": 14.634,
+      "eval_top_10_accuracy": 0.9023668639053254,
+      "eval_top_1_accuracy": 0.5946745562130178,
+      "eval_top_5_accuracy": 0.8224852071005917,
+      "step": 5768
+    },
+    {
+      "epoch": 32.00088888888889,
+      "grad_norm": 0.024992674589157104,
+      "learning_rate": 4.661728395061728e-05,
+      "loss": 0.1003,
+      "step": 5800
+    },
+    {
+      "epoch": 32.00366666666667,
+      "grad_norm": 0.2089391052722931,
+      "learning_rate": 4.646296296296297e-05,
+      "loss": 0.1026,
+      "step": 5900
+    },
+    {
+      "epoch": 32.005,
+      "eval_accuracy": 0.6035502958579881,
+      "eval_f1": 0.5831550927704774,
+      "eval_loss": 2.092036485671997,
+      "eval_precision": 0.6375950972104818,
+      "eval_recall": 0.6035502958579881,
+      "eval_runtime": 11.4387,
+      "eval_samples_per_second": 29.549,
+      "eval_steps_per_second": 14.774,
+      "eval_top_10_accuracy": 0.893491124260355,
+      "eval_top_1_accuracy": 0.6035502958579881,
+      "eval_top_5_accuracy": 0.8106508875739645,
+      "step": 5948
+    },
+    {
+      "epoch": 33.0014375,
+      "grad_norm": 0.051621366292238235,
+      "learning_rate": 4.6308641975308645e-05,
+      "loss": 0.0709,
+      "step": 6000
+    },
+    {
+      "epoch": 33.004215277777774,
+      "grad_norm": 0.05871783196926117,
+      "learning_rate": 4.615432098765433e-05,
+      "loss": 0.0968,
+      "step": 6100
+    },
+    {
+      "epoch": 33.00499305555556,
+      "eval_accuracy": 0.5739644970414202,
+      "eval_f1": 0.5541961818589037,
+      "eval_loss": 2.2745707035064697,
+      "eval_precision": 0.6308041317656701,
+      "eval_recall": 0.5739644970414202,
+      "eval_runtime": 11.2862,
+      "eval_samples_per_second": 29.948,
+      "eval_steps_per_second": 14.974,
+      "eval_top_10_accuracy": 0.8846153846153846,
+      "eval_top_1_accuracy": 0.5739644970414202,
+      "eval_top_5_accuracy": 0.8047337278106509,
+      "step": 6128
+    },
+    {
+      "epoch": 34.00198611111111,
+      "grad_norm": 0.23713918030261993,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.2097,
+      "step": 6200
+    },
+    {
+      "epoch": 34.00476388888889,
+      "grad_norm": 0.9631951451301575,
+      "learning_rate": 4.5845679012345684e-05,
+      "loss": 0.1864,
+      "step": 6300
+    },
+    {
+      "epoch": 34.00498611111111,
+      "eval_accuracy": 0.5887573964497042,
+      "eval_f1": 0.5704292684109307,
+      "eval_loss": 2.208103656768799,
+      "eval_precision": 0.639407621471231,
+      "eval_recall": 0.5887573964497042,
+      "eval_runtime": 11.7319,
+      "eval_samples_per_second": 28.81,
+      "eval_steps_per_second": 14.405,
+      "eval_top_10_accuracy": 0.8698224852071006,
+      "eval_top_1_accuracy": 0.5887573964497042,
+      "eval_top_5_accuracy": 0.8047337278106509,
+      "step": 6308
+    },
+    {
+      "epoch": 35.00253472222222,
+      "grad_norm": 0.04889826104044914,
+      "learning_rate": 4.569135802469136e-05,
+      "loss": 0.1353,
+      "step": 6400
+    },
+    {
+      "epoch": 35.005006944444446,
+      "eval_accuracy": 0.5798816568047337,
+      "eval_f1": 0.5635964955491581,
+      "eval_loss": 2.1853461265563965,
+      "eval_precision": 0.6133398652629422,
+      "eval_recall": 0.5798816568047337,
+      "eval_runtime": 11.3905,
+      "eval_samples_per_second": 29.674,
+      "eval_steps_per_second": 14.837,
+      "eval_top_10_accuracy": 0.893491124260355,
+      "eval_top_1_accuracy": 0.5798816568047337,
+      "eval_top_5_accuracy": 0.8254437869822485,
+      "step": 6489
+    },
+    {
+      "epoch": 36.000305555555556,
+      "grad_norm": 0.8964897394180298,
+      "learning_rate": 4.553703703703704e-05,
+      "loss": 0.1746,
+      "step": 6500
+    },
+    {
+      "epoch": 36.003083333333336,
+      "grad_norm": 0.05014768987894058,
+      "learning_rate": 4.538271604938272e-05,
+      "loss": 0.1618,
+      "step": 6600
+    },
+    {
+      "epoch": 36.005,
+      "eval_accuracy": 0.5710059171597633,
+      "eval_f1": 0.5514817365409082,
+      "eval_loss": 2.266056537628174,
+      "eval_precision": 0.624323753169907,
+      "eval_recall": 0.5710059171597633,
+      "eval_runtime": 11.0844,
+      "eval_samples_per_second": 30.493,
+      "eval_steps_per_second": 15.247,
+      "eval_top_10_accuracy": 0.8698224852071006,
+      "eval_top_1_accuracy": 0.5710059171597633,
+      "eval_top_5_accuracy": 0.7958579881656804,
+      "step": 6669
+    },
+    {
+      "epoch": 37.00085416666667,
+      "grad_norm": 0.18619082868099213,
+      "learning_rate": 4.5228395061728395e-05,
+      "loss": 0.3118,
+      "step": 6700
+    },
+    {
+      "epoch": 37.00363194444444,
+      "grad_norm": 0.18089838325977325,
+      "learning_rate": 4.507407407407407e-05,
+      "loss": 0.259,
+      "step": 6800
+    },
+    {
+      "epoch": 37.00499305555556,
+      "eval_accuracy": 0.5739644970414202,
+      "eval_f1": 0.5459162632239556,
+      "eval_loss": 2.3162882328033447,
+      "eval_precision": 0.6088229078613694,
+      "eval_recall": 0.5739644970414202,
+      "eval_runtime": 11.492,
+      "eval_samples_per_second": 29.412,
+      "eval_steps_per_second": 14.706,
+      "eval_top_10_accuracy": 0.8579881656804734,
+      "eval_top_1_accuracy": 0.5739644970414202,
+      "eval_top_5_accuracy": 0.7869822485207101,
+      "step": 6849
+    },
+    {
+      "epoch": 38.00140277777778,
+      "grad_norm": 0.049058422446250916,
+      "learning_rate": 4.49212962962963e-05,
+      "loss": 0.3374,
+      "step": 6900
+    },
+    {
+      "epoch": 38.00418055555556,
+      "grad_norm": 0.4456841051578522,
+      "learning_rate": 4.476697530864198e-05,
+      "loss": 0.3394,
+      "step": 7000
+    },
+    {
+      "epoch": 38.00498611111111,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5614232086125578,
+      "eval_loss": 2.0984292030334473,
+      "eval_precision": 0.6154339250493096,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 11.997,
+      "eval_samples_per_second": 28.174,
+      "eval_steps_per_second": 14.087,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.7988165680473372,
+      "step": 7029
+    },
+    {
+      "epoch": 39.00195138888889,
+      "grad_norm": 0.010750464163720608,
+      "learning_rate": 4.4612654320987657e-05,
+      "loss": 0.1193,
+      "step": 7100
+    },
+    {
+      "epoch": 39.004729166666664,
+      "grad_norm": 0.22571489214897156,
+      "learning_rate": 4.4458333333333334e-05,
+      "loss": 0.0833,
+      "step": 7200
+    },
+    {
+      "epoch": 39.005006944444446,
+      "eval_accuracy": 0.5532544378698225,
+      "eval_f1": 0.5328080203819848,
+      "eval_loss": 2.281132936477661,
+      "eval_precision": 0.6051346089807629,
+      "eval_recall": 0.5532544378698225,
+      "eval_runtime": 11.8037,
+      "eval_samples_per_second": 28.635,
+      "eval_steps_per_second": 14.317,
+      "eval_top_10_accuracy": 0.8698224852071006,
+      "eval_top_1_accuracy": 0.5532544378698225,
+      "eval_top_5_accuracy": 0.8047337278106509,
+      "step": 7210
+    },
+    {
+      "epoch": 40.0025,
+      "grad_norm": 1.91786789894104,
+      "learning_rate": 4.430401234567901e-05,
+      "loss": 0.1259,
+      "step": 7300
+    },
+    {
+      "epoch": 40.005,
+      "eval_accuracy": 0.5828402366863905,
+      "eval_f1": 0.551048433814706,
+      "eval_loss": 2.2599146366119385,
+      "eval_precision": 0.5806347252353169,
+      "eval_recall": 0.5828402366863905,
+      "eval_runtime": 11.6047,
+      "eval_samples_per_second": 29.126,
+      "eval_steps_per_second": 14.563,
+      "eval_top_10_accuracy": 0.8698224852071006,
+      "eval_top_1_accuracy": 0.5828402366863905,
+      "eval_top_5_accuracy": 0.7899408284023669,
+      "step": 7390
+    },
+    {
+      "epoch": 40.005,
+      "step": 7390,
+      "total_flos": 5.1831774087363035e+19,
+      "train_loss": 3.1396320400444515,
+      "train_runtime": 4689.7449,
+      "train_samples_per_second": 61.411,
+      "train_steps_per_second": 7.676
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 36000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 20,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 20
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.1831774087363035e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:532dc0da4d223346407fcf361a1413936e46f5fc28f3898dbdd97b70ed727bb5
+size 5368