Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

config.json +104 -0
optimizer.pt +3 -0
preprocessor_config.json +22 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1276 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "$",
+    "1": "&",
+    "10": "8",
+    "11": "9",
+    "12": "@",
+    "13": "A",
+    "14": "B",
+    "15": "C",
+    "16": "D",
+    "17": "E",
+    "18": "F",
+    "19": "G",
+    "2": "0",
+    "20": "H",
+    "21": "I",
+    "22": "J",
+    "23": "K",
+    "24": "L",
+    "25": "M",
+    "26": "N",
+    "27": "P",
+    "28": "Q",
+    "29": "R",
+    "3": "1",
+    "30": "S",
+    "31": "T",
+    "32": "U",
+    "33": "V",
+    "34": "W",
+    "35": "X",
+    "36": "Y",
+    "37": "Z",
+    "4": "2",
+    "5": "3",
+    "6": "4",
+    "7": "5",
+    "8": "6",
+    "9": "7"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "$": "0",
+    "&": "1",
+    "0": "2",
+    "1": "3",
+    "2": "4",
+    "3": "5",
+    "4": "6",
+    "5": "7",
+    "6": "8",
+    "7": "9",
+    "8": "10",
+    "9": "11",
+    "@": "12",
+    "A": "13",
+    "B": "14",
+    "C": "15",
+    "D": "16",
+    "E": "17",
+    "F": "18",
+    "G": "19",
+    "H": "20",
+    "I": "21",
+    "J": "22",
+    "K": "23",
+    "L": "24",
+    "M": "25",
+    "N": "26",
+    "P": "27",
+    "Q": "28",
+    "R": "29",
+    "S": "30",
+    "T": "31",
+    "U": "32",
+    "V": "33",
+    "W": "34",
+    "X": "35",
+    "Y": "36",
+    "Z": "37"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d82abf7a2d71346cb612147f70e5ce2a52077c8b25ce2fd916a03f850465e346
+size 686740357

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTFeatureExtractor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b5cfe2c1d39549fd9ad6c3c13b2f320ea6107f5771aace71f4f23ebf70747a6
+size 343379437

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39232056ccfd436c15019799b0234cbd01d2c42fe70cfc50400b13b6cae1832b
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:855c89b7f32eb731e9b96739f0342e3107e09b1ea38d6288849b304854c6b06a
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1276 @@

+{
+  "best_metric": 0.16805602610111237,
+  "best_model_checkpoint": "./vit-handwritten-characters/checkpoint-8400",
+  "epoch": 2.952548330404218,
+  "global_step": 8400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.882835383714118e-05,
+      "loss": 2.6668,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.7636050763605077,
+      "eval_loss": 1.8537834882736206,
+      "eval_runtime": 53.1177,
+      "eval_samples_per_second": 87.523,
+      "eval_steps_per_second": 2.749,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.765670767428236e-05,
+      "loss": 1.3385,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.8698644869864487,
+      "eval_loss": 1.0306403636932373,
+      "eval_runtime": 50.6679,
+      "eval_samples_per_second": 91.754,
+      "eval_steps_per_second": 2.882,
+      "step": 200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.648506151142355e-05,
+      "loss": 0.8372,
+      "step": 300
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.8657775865777586,
+      "eval_loss": 0.7356651425361633,
+      "eval_runtime": 51.2063,
+      "eval_samples_per_second": 90.79,
+      "eval_steps_per_second": 2.851,
+      "step": 300
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.531341534856473e-05,
+      "loss": 0.5838,
+      "step": 400
+    },
+    {
+      "epoch": 0.14,
+      "eval_accuracy": 0.899118089911809,
+      "eval_loss": 0.5292066335678101,
+      "eval_runtime": 51.0683,
+      "eval_samples_per_second": 91.035,
+      "eval_steps_per_second": 2.859,
+      "step": 400
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.414176918570592e-05,
+      "loss": 0.4572,
+      "step": 500
+    },
+    {
+      "epoch": 0.18,
+      "eval_accuracy": 0.901699290169929,
+      "eval_loss": 0.4536021947860718,
+      "eval_runtime": 51.5623,
+      "eval_samples_per_second": 90.163,
+      "eval_steps_per_second": 2.832,
+      "step": 500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.29701230228471e-05,
+      "loss": 0.3808,
+      "step": 600
+    },
+    {
+      "epoch": 0.21,
+      "eval_accuracy": 0.9141750914175092,
+      "eval_loss": 0.37226173281669617,
+      "eval_runtime": 51.6002,
+      "eval_samples_per_second": 90.097,
+      "eval_steps_per_second": 2.829,
+      "step": 600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.17984768599883e-05,
+      "loss": 0.393,
+      "step": 700
+    },
+    {
+      "epoch": 0.25,
+      "eval_accuracy": 0.899763389976339,
+      "eval_loss": 0.42711377143859863,
+      "eval_runtime": 53.3282,
+      "eval_samples_per_second": 87.177,
+      "eval_steps_per_second": 2.738,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.062683069712947e-05,
+      "loss": 0.3611,
+      "step": 800
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 0.8793288879328888,
+      "eval_loss": 0.41316691040992737,
+      "eval_runtime": 52.5044,
+      "eval_samples_per_second": 88.545,
+      "eval_steps_per_second": 2.781,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 8.945518453427065e-05,
+      "loss": 0.3436,
+      "step": 900
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.9068616906861691,
+      "eval_loss": 0.34593629837036133,
+      "eval_runtime": 52.4712,
+      "eval_samples_per_second": 88.601,
+      "eval_steps_per_second": 2.782,
+      "step": 900
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.828353837141183e-05,
+      "loss": 0.3147,
+      "step": 1000
+    },
+    {
+      "epoch": 0.35,
+      "eval_accuracy": 0.9135297913529792,
+      "eval_loss": 0.32545194029808044,
+      "eval_runtime": 55.2872,
+      "eval_samples_per_second": 84.088,
+      "eval_steps_per_second": 2.641,
+      "step": 1000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 8.711189220855302e-05,
+      "loss": 0.2887,
+      "step": 1100
+    },
+    {
+      "epoch": 0.39,
+      "eval_accuracy": 0.9137448913744891,
+      "eval_loss": 0.3017228841781616,
+      "eval_runtime": 52.7469,
+      "eval_samples_per_second": 88.138,
+      "eval_steps_per_second": 2.768,
+      "step": 1100
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 8.59402460456942e-05,
+      "loss": 0.2768,
+      "step": 1200
+    },
+    {
+      "epoch": 0.42,
+      "eval_accuracy": 0.9130995913099591,
+      "eval_loss": 0.3049895465373993,
+      "eval_runtime": 52.9848,
+      "eval_samples_per_second": 87.742,
+      "eval_steps_per_second": 2.756,
+      "step": 1200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.476859988283538e-05,
+      "loss": 0.3113,
+      "step": 1300
+    },
+    {
+      "epoch": 0.46,
+      "eval_accuracy": 0.9167562916756292,
+      "eval_loss": 0.2875942885875702,
+      "eval_runtime": 54.7094,
+      "eval_samples_per_second": 84.976,
+      "eval_steps_per_second": 2.669,
+      "step": 1300
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 8.359695371997657e-05,
+      "loss": 0.2607,
+      "step": 1400
+    },
+    {
+      "epoch": 0.49,
+      "eval_accuracy": 0.9098730909873091,
+      "eval_loss": 0.33047187328338623,
+      "eval_runtime": 55.3261,
+      "eval_samples_per_second": 84.029,
+      "eval_steps_per_second": 2.639,
+      "step": 1400
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 8.242530755711776e-05,
+      "loss": 0.288,
+      "step": 1500
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.9098730909873091,
+      "eval_loss": 0.3238196074962616,
+      "eval_runtime": 53.2815,
+      "eval_samples_per_second": 87.254,
+      "eval_steps_per_second": 2.74,
+      "step": 1500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.125366139425894e-05,
+      "loss": 0.311,
+      "step": 1600
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.9128844912884492,
+      "eval_loss": 0.2932077944278717,
+      "eval_runtime": 54.1056,
+      "eval_samples_per_second": 85.925,
+      "eval_steps_per_second": 2.698,
+      "step": 1600
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.008201523140012e-05,
+      "loss": 0.2702,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6,
+      "eval_accuracy": 0.9214884921488492,
+      "eval_loss": 0.281431645154953,
+      "eval_runtime": 55.0433,
+      "eval_samples_per_second": 84.461,
+      "eval_steps_per_second": 2.652,
+      "step": 1700
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 7.89103690685413e-05,
+      "loss": 0.2476,
+      "step": 1800
+    },
+    {
+      "epoch": 0.63,
+      "eval_accuracy": 0.899118089911809,
+      "eval_loss": 0.29802632331848145,
+      "eval_runtime": 53.6155,
+      "eval_samples_per_second": 86.71,
+      "eval_steps_per_second": 2.723,
+      "step": 1800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 7.773872290568249e-05,
+      "loss": 0.2833,
+      "step": 1900
+    },
+    {
+      "epoch": 0.67,
+      "eval_accuracy": 0.9283716928371692,
+      "eval_loss": 0.2524644136428833,
+      "eval_runtime": 53.6383,
+      "eval_samples_per_second": 86.673,
+      "eval_steps_per_second": 2.722,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 7.656707674282367e-05,
+      "loss": 0.2542,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7,
+      "eval_accuracy": 0.9247149924714992,
+      "eval_loss": 0.2760772705078125,
+      "eval_runtime": 53.5886,
+      "eval_samples_per_second": 86.753,
+      "eval_steps_per_second": 2.724,
+      "step": 2000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 7.539543057996485e-05,
+      "loss": 0.2405,
+      "step": 2100
+    },
+    {
+      "epoch": 0.74,
+      "eval_accuracy": 0.9229941922994193,
+      "eval_loss": 0.2586613595485687,
+      "eval_runtime": 55.7532,
+      "eval_samples_per_second": 83.385,
+      "eval_steps_per_second": 2.619,
+      "step": 2100
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.422378441710603e-05,
+      "loss": 0.2404,
+      "step": 2200
+    },
+    {
+      "epoch": 0.77,
+      "eval_accuracy": 0.9184770918477092,
+      "eval_loss": 0.25114524364471436,
+      "eval_runtime": 54.8709,
+      "eval_samples_per_second": 84.726,
+      "eval_steps_per_second": 2.661,
+      "step": 2200
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 7.305213825424722e-05,
+      "loss": 0.2277,
+      "step": 2300
+    },
+    {
+      "epoch": 0.81,
+      "eval_accuracy": 0.9191223919122392,
+      "eval_loss": 0.2526193857192993,
+      "eval_runtime": 54.7258,
+      "eval_samples_per_second": 84.951,
+      "eval_steps_per_second": 2.668,
+      "step": 2300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.188049209138841e-05,
+      "loss": 0.2399,
+      "step": 2400
+    },
+    {
+      "epoch": 0.84,
+      "eval_accuracy": 0.9214884921488492,
+      "eval_loss": 0.2550754249095917,
+      "eval_runtime": 55.744,
+      "eval_samples_per_second": 83.399,
+      "eval_steps_per_second": 2.619,
+      "step": 2400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.070884592852959e-05,
+      "loss": 0.2336,
+      "step": 2500
+    },
+    {
+      "epoch": 0.88,
+      "eval_accuracy": 0.9219186921918692,
+      "eval_loss": 0.23437733948230743,
+      "eval_runtime": 53.9586,
+      "eval_samples_per_second": 86.159,
+      "eval_steps_per_second": 2.706,
+      "step": 2500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 6.953719976567077e-05,
+      "loss": 0.2246,
+      "step": 2600
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.9197676919767692,
+      "eval_loss": 0.24808667600154877,
+      "eval_runtime": 53.4909,
+      "eval_samples_per_second": 86.912,
+      "eval_steps_per_second": 2.729,
+      "step": 2600
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 6.836555360281195e-05,
+      "loss": 0.2284,
+      "step": 2700
+    },
+    {
+      "epoch": 0.95,
+      "eval_accuracy": 0.9322434932243493,
+      "eval_loss": 0.21941034495830536,
+      "eval_runtime": 53.0587,
+      "eval_samples_per_second": 87.62,
+      "eval_steps_per_second": 2.752,
+      "step": 2700
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.719390743995314e-05,
+      "loss": 0.2335,
+      "step": 2800
+    },
+    {
+      "epoch": 0.98,
+      "eval_accuracy": 0.9331038933103893,
+      "eval_loss": 0.2168220579624176,
+      "eval_runtime": 56.1589,
+      "eval_samples_per_second": 82.783,
+      "eval_steps_per_second": 2.6,
+      "step": 2800
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 6.602226127709432e-05,
+      "loss": 0.1883,
+      "step": 2900
+    },
+    {
+      "epoch": 1.02,
+      "eval_accuracy": 0.9229941922994193,
+      "eval_loss": 0.24746185541152954,
+      "eval_runtime": 54.8887,
+      "eval_samples_per_second": 84.699,
+      "eval_steps_per_second": 2.66,
+      "step": 2900
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 6.48506151142355e-05,
+      "loss": 0.194,
+      "step": 3000
+    },
+    {
+      "epoch": 1.05,
+      "eval_accuracy": 0.9328887932888793,
+      "eval_loss": 0.2247306853532791,
+      "eval_runtime": 54.695,
+      "eval_samples_per_second": 84.999,
+      "eval_steps_per_second": 2.669,
+      "step": 3000
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 6.367896895137668e-05,
+      "loss": 0.2097,
+      "step": 3100
+    },
+    {
+      "epoch": 1.09,
+      "eval_accuracy": 0.9272961927296193,
+      "eval_loss": 0.21885570883750916,
+      "eval_runtime": 55.7057,
+      "eval_samples_per_second": 83.456,
+      "eval_steps_per_second": 2.621,
+      "step": 3100
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 6.250732278851787e-05,
+      "loss": 0.1663,
+      "step": 3200
+    },
+    {
+      "epoch": 1.12,
+      "eval_accuracy": 0.9380511938051194,
+      "eval_loss": 0.2038552463054657,
+      "eval_runtime": 57.0481,
+      "eval_samples_per_second": 81.493,
+      "eval_steps_per_second": 2.559,
+      "step": 3200
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 6.133567662565906e-05,
+      "loss": 0.1847,
+      "step": 3300
+    },
+    {
+      "epoch": 1.16,
+      "eval_accuracy": 0.9266508926650893,
+      "eval_loss": 0.2347552329301834,
+      "eval_runtime": 56.4891,
+      "eval_samples_per_second": 82.299,
+      "eval_steps_per_second": 2.585,
+      "step": 3300
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 6.016403046280023e-05,
+      "loss": 0.1809,
+      "step": 3400
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.9236394923639493,
+      "eval_loss": 0.24315237998962402,
+      "eval_runtime": 54.6687,
+      "eval_samples_per_second": 85.04,
+      "eval_steps_per_second": 2.671,
+      "step": 3400
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 5.899238429994142e-05,
+      "loss": 0.1787,
+      "step": 3500
+    },
+    {
+      "epoch": 1.23,
+      "eval_accuracy": 0.9339642933964294,
+      "eval_loss": 0.21847452223300934,
+      "eval_runtime": 54.0398,
+      "eval_samples_per_second": 86.029,
+      "eval_steps_per_second": 2.702,
+      "step": 3500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 5.782073813708261e-05,
+      "loss": 0.183,
+      "step": 3600
+    },
+    {
+      "epoch": 1.27,
+      "eval_accuracy": 0.9363303936330394,
+      "eval_loss": 0.20778249204158783,
+      "eval_runtime": 54.441,
+      "eval_samples_per_second": 85.395,
+      "eval_steps_per_second": 2.682,
+      "step": 3600
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 5.664909197422379e-05,
+      "loss": 0.1704,
+      "step": 3700
+    },
+    {
+      "epoch": 1.3,
+      "eval_accuracy": 0.9152505915250592,
+      "eval_loss": 0.23343944549560547,
+      "eval_runtime": 56.1215,
+      "eval_samples_per_second": 82.838,
+      "eval_steps_per_second": 2.601,
+      "step": 3700
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.547744581136497e-05,
+      "loss": 0.2002,
+      "step": 3800
+    },
+    {
+      "epoch": 1.34,
+      "eval_accuracy": 0.9212733921273392,
+      "eval_loss": 0.23881135880947113,
+      "eval_runtime": 54.8777,
+      "eval_samples_per_second": 84.716,
+      "eval_steps_per_second": 2.66,
+      "step": 3800
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 5.430579964850615e-05,
+      "loss": 0.1787,
+      "step": 3900
+    },
+    {
+      "epoch": 1.37,
+      "eval_accuracy": 0.9260055926005593,
+      "eval_loss": 0.22407278418540955,
+      "eval_runtime": 54.5169,
+      "eval_samples_per_second": 85.276,
+      "eval_steps_per_second": 2.678,
+      "step": 3900
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 5.3134153485647345e-05,
+      "loss": 0.1757,
+      "step": 4000
+    },
+    {
+      "epoch": 1.41,
+      "eval_accuracy": 0.9324585932458593,
+      "eval_loss": 0.2097584456205368,
+      "eval_runtime": 54.3298,
+      "eval_samples_per_second": 85.57,
+      "eval_steps_per_second": 2.687,
+      "step": 4000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.1962507322788524e-05,
+      "loss": 0.1667,
+      "step": 4100
+    },
+    {
+      "epoch": 1.44,
+      "eval_accuracy": 0.9348246934824693,
+      "eval_loss": 0.21198517084121704,
+      "eval_runtime": 53.7704,
+      "eval_samples_per_second": 86.46,
+      "eval_steps_per_second": 2.715,
+      "step": 4100
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 5.07908611599297e-05,
+      "loss": 0.2078,
+      "step": 4200
+    },
+    {
+      "epoch": 1.48,
+      "eval_accuracy": 0.9348246934824693,
+      "eval_loss": 0.2187454104423523,
+      "eval_runtime": 54.7943,
+      "eval_samples_per_second": 84.845,
+      "eval_steps_per_second": 2.665,
+      "step": 4200
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 4.961921499707089e-05,
+      "loss": 0.1775,
+      "step": 4300
+    },
+    {
+      "epoch": 1.51,
+      "eval_accuracy": 0.9294471929447193,
+      "eval_loss": 0.226194366812706,
+      "eval_runtime": 54.2742,
+      "eval_samples_per_second": 85.658,
+      "eval_steps_per_second": 2.69,
+      "step": 4300
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 4.844756883421207e-05,
+      "loss": 0.1771,
+      "step": 4400
+    },
+    {
+      "epoch": 1.55,
+      "eval_accuracy": 0.9311679931167993,
+      "eval_loss": 0.2125757783651352,
+      "eval_runtime": 53.3871,
+      "eval_samples_per_second": 87.081,
+      "eval_steps_per_second": 2.735,
+      "step": 4400
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 4.727592267135325e-05,
+      "loss": 0.158,
+      "step": 4500
+    },
+    {
+      "epoch": 1.58,
+      "eval_accuracy": 0.9343944934394494,
+      "eval_loss": 0.20714816451072693,
+      "eval_runtime": 53.7213,
+      "eval_samples_per_second": 86.539,
+      "eval_steps_per_second": 2.718,
+      "step": 4500
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.610427650849444e-05,
+      "loss": 0.1792,
+      "step": 4600
+    },
+    {
+      "epoch": 1.62,
+      "eval_accuracy": 0.9275112927511293,
+      "eval_loss": 0.227621927857399,
+      "eval_runtime": 54.9746,
+      "eval_samples_per_second": 84.566,
+      "eval_steps_per_second": 2.656,
+      "step": 4600
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 4.4932630345635615e-05,
+      "loss": 0.1523,
+      "step": 4700
+    },
+    {
+      "epoch": 1.65,
+      "eval_accuracy": 0.9268659926865993,
+      "eval_loss": 0.21835899353027344,
+      "eval_runtime": 55.0826,
+      "eval_samples_per_second": 84.4,
+      "eval_steps_per_second": 2.651,
+      "step": 4700
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 4.37609841827768e-05,
+      "loss": 0.1739,
+      "step": 4800
+    },
+    {
+      "epoch": 1.69,
+      "eval_accuracy": 0.9322434932243493,
+      "eval_loss": 0.22359773516654968,
+      "eval_runtime": 53.2692,
+      "eval_samples_per_second": 87.274,
+      "eval_steps_per_second": 2.741,
+      "step": 4800
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.2589338019917986e-05,
+      "loss": 0.1638,
+      "step": 4900
+    },
+    {
+      "epoch": 1.72,
+      "eval_accuracy": 0.9402021940202194,
+      "eval_loss": 0.18819227814674377,
+      "eval_runtime": 52.562,
+      "eval_samples_per_second": 88.448,
+      "eval_steps_per_second": 2.778,
+      "step": 4900
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 4.141769185705917e-05,
+      "loss": 0.1653,
+      "step": 5000
+    },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 0.9309528930952893,
+      "eval_loss": 0.21739357709884644,
+      "eval_runtime": 54.6403,
+      "eval_samples_per_second": 85.084,
+      "eval_steps_per_second": 2.672,
+      "step": 5000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 4.024604569420035e-05,
+      "loss": 0.1584,
+      "step": 5100
+    },
+    {
+      "epoch": 1.79,
+      "eval_accuracy": 0.9384813938481393,
+      "eval_loss": 0.197902649641037,
+      "eval_runtime": 54.1444,
+      "eval_samples_per_second": 85.863,
+      "eval_steps_per_second": 2.696,
+      "step": 5100
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3.9074399531341535e-05,
+      "loss": 0.1621,
+      "step": 5200
+    },
+    {
+      "epoch": 1.83,
+      "eval_accuracy": 0.9371907937190793,
+      "eval_loss": 0.20193301141262054,
+      "eval_runtime": 52.6121,
+      "eval_samples_per_second": 88.364,
+      "eval_steps_per_second": 2.775,
+      "step": 5200
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 3.790275336848272e-05,
+      "loss": 0.156,
+      "step": 5300
+    },
+    {
+      "epoch": 1.86,
+      "eval_accuracy": 0.9322434932243493,
+      "eval_loss": 0.20995856821537018,
+      "eval_runtime": 52.8452,
+      "eval_samples_per_second": 87.974,
+      "eval_steps_per_second": 2.763,
+      "step": 5300
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.6731107205623906e-05,
+      "loss": 0.1819,
+      "step": 5400
+    },
+    {
+      "epoch": 1.9,
+      "eval_accuracy": 0.9384813938481393,
+      "eval_loss": 0.18913036584854126,
+      "eval_runtime": 53.1008,
+      "eval_samples_per_second": 87.55,
+      "eval_steps_per_second": 2.749,
+      "step": 5400
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3.5559461042765085e-05,
+      "loss": 0.1676,
+      "step": 5500
+    },
+    {
+      "epoch": 1.93,
+      "eval_accuracy": 0.9397719939771993,
+      "eval_loss": 0.18966327607631683,
+      "eval_runtime": 54.5409,
+      "eval_samples_per_second": 85.239,
+      "eval_steps_per_second": 2.677,
+      "step": 5500
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3.438781487990627e-05,
+      "loss": 0.1675,
+      "step": 5600
+    },
+    {
+      "epoch": 1.97,
+      "eval_accuracy": 0.9393417939341794,
+      "eval_loss": 0.1928705871105194,
+      "eval_runtime": 54.2748,
+      "eval_samples_per_second": 85.657,
+      "eval_steps_per_second": 2.69,
+      "step": 5600
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3.3216168717047456e-05,
+      "loss": 0.1389,
+      "step": 5700
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9389115938911594,
+      "eval_loss": 0.1925574094057083,
+      "eval_runtime": 53.5821,
+      "eval_samples_per_second": 86.764,
+      "eval_steps_per_second": 2.725,
+      "step": 5700
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.204452255418864e-05,
+      "loss": 0.1217,
+      "step": 5800
+    },
+    {
+      "epoch": 2.04,
+      "eval_accuracy": 0.9324585932458593,
+      "eval_loss": 0.1982860118150711,
+      "eval_runtime": 53.4582,
+      "eval_samples_per_second": 86.965,
+      "eval_steps_per_second": 2.731,
+      "step": 5800
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 3.087287639132982e-05,
+      "loss": 0.1158,
+      "step": 5900
+    },
+    {
+      "epoch": 2.07,
+      "eval_accuracy": 0.9391266939126693,
+      "eval_loss": 0.1853022575378418,
+      "eval_runtime": 52.3558,
+      "eval_samples_per_second": 88.796,
+      "eval_steps_per_second": 2.789,
+      "step": 5900
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 2.9701230228471005e-05,
+      "loss": 0.1375,
+      "step": 6000
+    },
+    {
+      "epoch": 2.11,
+      "eval_accuracy": 0.9371907937190793,
+      "eval_loss": 0.19718600809574127,
+      "eval_runtime": 53.8918,
+      "eval_samples_per_second": 86.265,
+      "eval_steps_per_second": 2.709,
+      "step": 6000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.8541300527240778e-05,
+      "loss": 0.1195,
+      "step": 6100
+    },
+    {
+      "epoch": 2.14,
+      "eval_accuracy": 0.9384813938481393,
+      "eval_loss": 0.19445277750492096,
+      "eval_runtime": 53.8229,
+      "eval_samples_per_second": 86.376,
+      "eval_steps_per_second": 2.713,
+      "step": 6100
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.7369654364381957e-05,
+      "loss": 0.1249,
+      "step": 6200
+    },
+    {
+      "epoch": 2.18,
+      "eval_accuracy": 0.9350397935039794,
+      "eval_loss": 0.19001764059066772,
+      "eval_runtime": 52.3182,
+      "eval_samples_per_second": 88.86,
+      "eval_steps_per_second": 2.791,
+      "step": 6200
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 2.619800820152314e-05,
+      "loss": 0.1204,
+      "step": 6300
+    },
+    {
+      "epoch": 2.21,
+      "eval_accuracy": 0.9324585932458593,
+      "eval_loss": 0.20320840179920197,
+      "eval_runtime": 52.8746,
+      "eval_samples_per_second": 87.925,
+      "eval_steps_per_second": 2.761,
+      "step": 6300
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 2.5026362038664324e-05,
+      "loss": 0.122,
+      "step": 6400
+    },
+    {
+      "epoch": 2.25,
+      "eval_accuracy": 0.9376209937620994,
+      "eval_loss": 0.17533761262893677,
+      "eval_runtime": 52.222,
+      "eval_samples_per_second": 89.024,
+      "eval_steps_per_second": 2.796,
+      "step": 6400
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.385471587580551e-05,
+      "loss": 0.1136,
+      "step": 6500
+    },
+    {
+      "epoch": 2.28,
+      "eval_accuracy": 0.9406323940632394,
+      "eval_loss": 0.18234318494796753,
+      "eval_runtime": 53.2472,
+      "eval_samples_per_second": 87.31,
+      "eval_steps_per_second": 2.742,
+      "step": 6500
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.268306971294669e-05,
+      "loss": 0.125,
+      "step": 6600
+    },
+    {
+      "epoch": 2.32,
+      "eval_accuracy": 0.9391266939126693,
+      "eval_loss": 0.1814049780368805,
+      "eval_runtime": 55.3063,
+      "eval_samples_per_second": 84.059,
+      "eval_steps_per_second": 2.64,
+      "step": 6600
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.1511423550087877e-05,
+      "loss": 0.1142,
+      "step": 6700
+    },
+    {
+      "epoch": 2.36,
+      "eval_accuracy": 0.9402021940202194,
+      "eval_loss": 0.1924043744802475,
+      "eval_runtime": 53.3253,
+      "eval_samples_per_second": 87.182,
+      "eval_steps_per_second": 2.738,
+      "step": 6700
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 2.033977738722906e-05,
+      "loss": 0.1258,
+      "step": 6800
+    },
+    {
+      "epoch": 2.39,
+      "eval_accuracy": 0.9421380942138095,
+      "eval_loss": 0.1804322451353073,
+      "eval_runtime": 52.0681,
+      "eval_samples_per_second": 89.287,
+      "eval_steps_per_second": 2.804,
+      "step": 6800
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 1.916813122437024e-05,
+      "loss": 0.1178,
+      "step": 6900
+    },
+    {
+      "epoch": 2.43,
+      "eval_accuracy": 0.9374058937405894,
+      "eval_loss": 0.18380628526210785,
+      "eval_runtime": 52.0076,
+      "eval_samples_per_second": 89.391,
+      "eval_steps_per_second": 2.807,
+      "step": 6900
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.7996485061511426e-05,
+      "loss": 0.1093,
+      "step": 7000
+    },
+    {
+      "epoch": 2.46,
+      "eval_accuracy": 0.9391266939126693,
+      "eval_loss": 0.17910005152225494,
+      "eval_runtime": 51.873,
+      "eval_samples_per_second": 89.623,
+      "eval_steps_per_second": 2.815,
+      "step": 7000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.6824838898652608e-05,
+      "loss": 0.1069,
+      "step": 7100
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.9391266939126693,
+      "eval_loss": 0.18617549538612366,
+      "eval_runtime": 54.5914,
+      "eval_samples_per_second": 85.16,
+      "eval_steps_per_second": 2.674,
+      "step": 7100
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.565319273579379e-05,
+      "loss": 0.1361,
+      "step": 7200
+    },
+    {
+      "epoch": 2.53,
+      "eval_accuracy": 0.9417078941707894,
+      "eval_loss": 0.17183491587638855,
+      "eval_runtime": 53.9807,
+      "eval_samples_per_second": 86.123,
+      "eval_steps_per_second": 2.705,
+      "step": 7200
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.4481546572934974e-05,
+      "loss": 0.1167,
+      "step": 7300
+    },
+    {
+      "epoch": 2.57,
+      "eval_accuracy": 0.9380511938051194,
+      "eval_loss": 0.18089379370212555,
+      "eval_runtime": 52.2028,
+      "eval_samples_per_second": 89.056,
+      "eval_steps_per_second": 2.797,
+      "step": 7300
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 1.3309900410076156e-05,
+      "loss": 0.127,
+      "step": 7400
+    },
+    {
+      "epoch": 2.6,
+      "eval_accuracy": 0.9445041944504194,
+      "eval_loss": 0.17267315089702606,
+      "eval_runtime": 51.7533,
+      "eval_samples_per_second": 89.83,
+      "eval_steps_per_second": 2.821,
+      "step": 7400
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 1.2138254247217341e-05,
+      "loss": 0.1215,
+      "step": 7500
+    },
+    {
+      "epoch": 2.64,
+      "eval_accuracy": 0.9402021940202194,
+      "eval_loss": 0.18060338497161865,
+      "eval_runtime": 53.2058,
+      "eval_samples_per_second": 87.378,
+      "eval_steps_per_second": 2.744,
+      "step": 7500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.0966608084358525e-05,
+      "loss": 0.1162,
+      "step": 7600
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.9404172940417294,
+      "eval_loss": 0.18343867361545563,
+      "eval_runtime": 56.0804,
+      "eval_samples_per_second": 82.899,
+      "eval_steps_per_second": 2.603,
+      "step": 7600
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 9.794961921499708e-06,
+      "loss": 0.1182,
+      "step": 7700
+    },
+    {
+      "epoch": 2.71,
+      "eval_accuracy": 0.9406323940632394,
+      "eval_loss": 0.17546848952770233,
+      "eval_runtime": 53.4141,
+      "eval_samples_per_second": 87.037,
+      "eval_steps_per_second": 2.733,
+      "step": 7700
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 8.62331575864089e-06,
+      "loss": 0.1179,
+      "step": 7800
+    },
+    {
+      "epoch": 2.74,
+      "eval_accuracy": 0.9410625941062594,
+      "eval_loss": 0.179013192653656,
+      "eval_runtime": 54.9709,
+      "eval_samples_per_second": 84.572,
+      "eval_steps_per_second": 2.656,
+      "step": 7800
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 7.451669595782074e-06,
+      "loss": 0.1012,
+      "step": 7900
+    },
+    {
+      "epoch": 2.78,
+      "eval_accuracy": 0.9427833942783395,
+      "eval_loss": 0.17139938473701477,
+      "eval_runtime": 53.4602,
+      "eval_samples_per_second": 86.962,
+      "eval_steps_per_second": 2.731,
+      "step": 7900
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 6.280023432923257e-06,
+      "loss": 0.1186,
+      "step": 8000
+    },
+    {
+      "epoch": 2.81,
+      "eval_accuracy": 0.9393417939341794,
+      "eval_loss": 0.17887155711650848,
+      "eval_runtime": 53.0073,
+      "eval_samples_per_second": 87.705,
+      "eval_steps_per_second": 2.754,
+      "step": 8000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.1083772700644406e-06,
+      "loss": 0.1305,
+      "step": 8100
+    },
+    {
+      "epoch": 2.85,
+      "eval_accuracy": 0.9408474940847494,
+      "eval_loss": 0.17335866391658783,
+      "eval_runtime": 52.8785,
+      "eval_samples_per_second": 87.919,
+      "eval_steps_per_second": 2.761,
+      "step": 8100
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.936731107205624e-06,
+      "loss": 0.1126,
+      "step": 8200
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.9397719939771993,
+      "eval_loss": 0.1753973364830017,
+      "eval_runtime": 51.7413,
+      "eval_samples_per_second": 89.851,
+      "eval_steps_per_second": 2.822,
+      "step": 8200
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 2.776801405975396e-06,
+      "loss": 0.1128,
+      "step": 8300
+    },
+    {
+      "epoch": 2.92,
+      "eval_accuracy": 0.9445041944504194,
+      "eval_loss": 0.1688772737979889,
+      "eval_runtime": 51.7644,
+      "eval_samples_per_second": 89.811,
+      "eval_steps_per_second": 2.82,
+      "step": 8300
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 1.605155243116579e-06,
+      "loss": 0.1108,
+      "step": 8400
+    },
+    {
+      "epoch": 2.95,
+      "eval_accuracy": 0.9442890944289094,
+      "eval_loss": 0.16805602610111237,
+      "eval_runtime": 53.4934,
+      "eval_samples_per_second": 86.908,
+      "eval_steps_per_second": 2.729,
+      "step": 8400
+    }
+  ],
+  "max_steps": 8535,
+  "num_train_epochs": 3,
+  "total_flos": 2.083300191455087e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5168ed0d536ebe9e05710e2a42e701d765e5d4a39b79bec7337527ad79f3b6f4
+size 3963