Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

checkpoint-28700/config.json +168 -0
checkpoint-28700/model.safetensors +3 -0
checkpoint-28700/optimizer.pt +3 -0
checkpoint-28700/preprocessor_config.json +22 -0
checkpoint-28700/rng_state.pth +3 -0
checkpoint-28700/scheduler.pt +3 -0
checkpoint-28700/trainer_state.json +1432 -0
checkpoint-28700/training_args.bin +3 -0
config.json +134 -136
model.safetensors +2 -2

checkpoint-28700/config.json ADDED Viewed

	@@ -0,0 +1,168 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Afghan",
+    "1": "African Wild Dog",
+    "2": "Airedale",
+    "3": "American Hairless",
+    "4": "American Spaniel",
+    "5": "Basenji",
+    "6": "Basset",
+    "7": "Beagle",
+    "8": "Bearded Collie",
+    "9": "Bermaise",
+    "10": "Bichon Frise",
+    "11": "Blenheim",
+    "12": "Bloodhound",
+    "13": "Bluetick",
+    "14": "Border Collie",
+    "15": "Borzoi",
+    "16": "Boston Terrier",
+    "17": "Boxer",
+    "18": "Bull Mastiff",
+    "19": "Bull Terrier",
+    "20": "Bulldog",
+    "21": "Cairn",
+    "22": "Chihuahua",
+    "23": "Chinese Crested",
+    "24": "Chow",
+    "25": "Clumber",
+    "26": "Cockapoo",
+    "27": "Cocker",
+    "28": "Collie",
+    "29": "Corgi",
+    "30": "Coyote",
+    "31": "Dalmation",
+    "32": "Dhole",
+    "33": "Dingo",
+    "34": "Doberman",
+    "35": "Elk Hound",
+    "36": "French Bulldog",
+    "37": "German Sheperd",
+    "38": "Golden Retriever",
+    "39": "Great Dane",
+    "40": "Great Perenees",
+    "41": "Greyhound",
+    "42": "Groenendael",
+    "43": "Irish Spaniel",
+    "44": "Irish Wolfhound",
+    "45": "Japanese Spaniel",
+    "46": "Komondor",
+    "47": "Labradoodle",
+    "48": "Labrador",
+    "49": "Lhasa",
+    "50": "Malinois",
+    "51": "Maltese",
+    "52": "Mex Hairless",
+    "53": "Newfoundland",
+    "54": "Pekinese",
+    "55": "Pit Bull",
+    "56": "Pomeranian",
+    "57": "Poodle",
+    "58": "Pug",
+    "59": "Rhodesian",
+    "60": "Rottweiler",
+    "61": "Saint Bernard",
+    "62": "Schnauzer",
+    "63": "Scotch Terrier",
+    "64": "Shar_Pei",
+    "65": "Shiba Inu",
+    "66": "Shih-Tzu",
+    "67": "Siberian Husky",
+    "68": "Vizsla",
+    "69": "Yorkie"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Afghan": 0,
+    "African Wild Dog": 1,
+    "Airedale": 2,
+    "American Hairless": 3,
+    "American Spaniel": 4,
+    "Basenji": 5,
+    "Basset": 6,
+    "Beagle": 7,
+    "Bearded Collie": 8,
+    "Bermaise": 9,
+    "Bichon Frise": 10,
+    "Blenheim": 11,
+    "Bloodhound": 12,
+    "Bluetick": 13,
+    "Border Collie": 14,
+    "Borzoi": 15,
+    "Boston Terrier": 16,
+    "Boxer": 17,
+    "Bull Mastiff": 18,
+    "Bull Terrier": 19,
+    "Bulldog": 20,
+    "Cairn": 21,
+    "Chihuahua": 22,
+    "Chinese Crested": 23,
+    "Chow": 24,
+    "Clumber": 25,
+    "Cockapoo": 26,
+    "Cocker": 27,
+    "Collie": 28,
+    "Corgi": 29,
+    "Coyote": 30,
+    "Dalmation": 31,
+    "Dhole": 32,
+    "Dingo": 33,
+    "Doberman": 34,
+    "Elk Hound": 35,
+    "French Bulldog": 36,
+    "German Sheperd": 37,
+    "Golden Retriever": 38,
+    "Great Dane": 39,
+    "Great Perenees": 40,
+    "Greyhound": 41,
+    "Groenendael": 42,
+    "Irish Spaniel": 43,
+    "Irish Wolfhound": 44,
+    "Japanese Spaniel": 45,
+    "Komondor": 46,
+    "Labradoodle": 47,
+    "Labrador": 48,
+    "Lhasa": 49,
+    "Malinois": 50,
+    "Maltese": 51,
+    "Mex Hairless": 52,
+    "Newfoundland": 53,
+    "Pekinese": 54,
+    "Pit Bull": 55,
+    "Pomeranian": 56,
+    "Poodle": 57,
+    "Pug": 58,
+    "Rhodesian": 59,
+    "Rottweiler": 60,
+    "Saint Bernard": 61,
+    "Schnauzer": 62,
+    "Scotch Terrier": 63,
+    "Shar_Pei": 64,
+    "Shiba Inu": 65,
+    "Shih-Tzu": 66,
+    "Siberian Husky": 67,
+    "Vizsla": 68,
+    "Yorkie": 69
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2"
+}

checkpoint-28700/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa6f5b1f9c44c3c29d9c4c7c230929790148180797e2a7c74658d6a0569b7889
+size 343433152

checkpoint-28700/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9441119e17fbce8c02c123f0a6bc137190b493c4a02ea94d0eb91c98ce0d197f
+size 686986757

checkpoint-28700/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

checkpoint-28700/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4e46c392585b57f3d919f401bc84426e9917e75fa9450d0b2300bd39adcd700
+size 14575

checkpoint-28700/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5f5db57e2e71196f015b9687e3a2120516fab7ddf9b02d267209859f3b74fef
+size 627

checkpoint-28700/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1432 @@

+{
+  "best_metric": 2.204108953475952,
+  "best_model_checkpoint": "dogs_70_breeds_image_detection/checkpoint-28700",
+  "epoch": 100.0,
+  "eval_steps": 500,
+  "global_step": 28700,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.02490170380078637,
+      "eval_loss": 4.22898006439209,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.0352,
+      "eval_samples_per_second": 115.093,
+      "eval_steps_per_second": 14.387,
+      "step": 287
+    },
+    {
+      "epoch": 1.7421602787456445,
+      "grad_norm": 1.2073975801467896,
+      "learning_rate": 9.842931937172775e-07,
+      "loss": 4.2284,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.048820445609436436,
+      "eval_loss": 4.192336559295654,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 51.9294,
+      "eval_samples_per_second": 117.544,
+      "eval_steps_per_second": 14.693,
+      "step": 574
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.09518348623853211,
+      "eval_loss": 4.150681972503662,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 51.3038,
+      "eval_samples_per_second": 118.977,
+      "eval_steps_per_second": 14.872,
+      "step": 861
+    },
+    {
+      "epoch": 3.484320557491289,
+      "grad_norm": 1.3359559774398804,
+      "learning_rate": 9.668411867364747e-07,
+      "loss": 4.1524,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.18299475753604194,
+      "eval_loss": 4.1059417724609375,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 51.1368,
+      "eval_samples_per_second": 119.366,
+      "eval_steps_per_second": 14.921,
+      "step": 1148
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.29701834862385323,
+      "eval_loss": 4.060353755950928,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6533,
+      "eval_samples_per_second": 115.928,
+      "eval_steps_per_second": 14.491,
+      "step": 1435
+    },
+    {
+      "epoch": 5.2264808362369335,
+      "grad_norm": 1.33736252784729,
+      "learning_rate": 9.493891797556719e-07,
+      "loss": 4.07,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.42480340760157276,
+      "eval_loss": 4.015019416809082,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6896,
+      "eval_samples_per_second": 115.848,
+      "eval_steps_per_second": 14.481,
+      "step": 1722
+    },
+    {
+      "epoch": 6.968641114982578,
+      "grad_norm": 1.47151780128479,
+      "learning_rate": 9.31937172774869e-07,
+      "loss": 3.9838,
+      "step": 2000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5329292267365662,
+      "eval_loss": 3.9675402641296387,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.5702,
+      "eval_samples_per_second": 113.944,
+      "eval_steps_per_second": 14.243,
+      "step": 2009
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6192660550458715,
+      "eval_loss": 3.920508623123169,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.4646,
+      "eval_samples_per_second": 112.073,
+      "eval_steps_per_second": 14.009,
+      "step": 2296
+    },
+    {
+      "epoch": 8.710801393728223,
+      "grad_norm": 1.5192607641220093,
+      "learning_rate": 9.144851657940664e-07,
+      "loss": 3.8977,
+      "step": 2500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6908584534731324,
+      "eval_loss": 3.8727903366088867,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.3384,
+      "eval_samples_per_second": 114.439,
+      "eval_steps_per_second": 14.305,
+      "step": 2583
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7378768020969856,
+      "eval_loss": 3.8257367610931396,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9624,
+      "eval_samples_per_second": 115.252,
+      "eval_steps_per_second": 14.406,
+      "step": 2870
+    },
+    {
+      "epoch": 10.452961672473867,
+      "grad_norm": 1.5286623239517212,
+      "learning_rate": 8.970331588132635e-07,
+      "loss": 3.8106,
+      "step": 3000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7714613368283093,
+      "eval_loss": 3.7787516117095947,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9786,
+      "eval_samples_per_second": 115.216,
+      "eval_steps_per_second": 14.402,
+      "step": 3157
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7980013106159896,
+      "eval_loss": 3.7332425117492676,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.2337,
+      "eval_samples_per_second": 114.664,
+      "eval_steps_per_second": 14.333,
+      "step": 3444
+    },
+    {
+      "epoch": 12.195121951219512,
+      "grad_norm": 2.0538368225097656,
+      "learning_rate": 8.795811518324607e-07,
+      "loss": 3.7266,
+      "step": 3500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8112712975098296,
+      "eval_loss": 3.68833065032959,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.3885,
+      "eval_samples_per_second": 114.332,
+      "eval_steps_per_second": 14.291,
+      "step": 3731
+    },
+    {
+      "epoch": 13.937282229965156,
+      "grad_norm": 1.6309235095977783,
+      "learning_rate": 8.621291448516579e-07,
+      "loss": 3.6456,
+      "step": 4000
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8211009174311926,
+      "eval_loss": 3.642503023147583,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.7562,
+      "eval_samples_per_second": 113.55,
+      "eval_steps_per_second": 14.194,
+      "step": 4018
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8299475753604194,
+      "eval_loss": 3.5993118286132812,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.1732,
+      "eval_samples_per_second": 112.676,
+      "eval_steps_per_second": 14.084,
+      "step": 4305
+    },
+    {
+      "epoch": 15.679442508710801,
+      "grad_norm": 1.6514416933059692,
+      "learning_rate": 8.446771378708551e-07,
+      "loss": 3.5667,
+      "step": 4500
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8381389252948886,
+      "eval_loss": 3.5562214851379395,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.3732,
+      "eval_samples_per_second": 114.365,
+      "eval_steps_per_second": 14.296,
+      "step": 4592
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.8423984272608126,
+      "eval_loss": 3.514224052429199,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.3166,
+      "eval_samples_per_second": 114.486,
+      "eval_steps_per_second": 14.311,
+      "step": 4879
+    },
+    {
+      "epoch": 17.421602787456447,
+      "grad_norm": 1.6095918416976929,
+      "learning_rate": 8.272251308900523e-07,
+      "loss": 3.4909,
+      "step": 5000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.851572739187418,
+      "eval_loss": 3.4752180576324463,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6463,
+      "eval_samples_per_second": 115.944,
+      "eval_steps_per_second": 14.493,
+      "step": 5166
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.85370249017038,
+      "eval_loss": 3.435464859008789,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9099,
+      "eval_samples_per_second": 115.366,
+      "eval_steps_per_second": 14.421,
+      "step": 5453
+    },
+    {
+      "epoch": 19.16376306620209,
+      "grad_norm": 1.7376962900161743,
+      "learning_rate": 8.097731239092496e-07,
+      "loss": 3.419,
+      "step": 5500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8582896461336829,
+      "eval_loss": 3.3971521854400635,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.7361,
+      "eval_samples_per_second": 115.746,
+      "eval_steps_per_second": 14.468,
+      "step": 5740
+    },
+    {
+      "epoch": 20.905923344947734,
+      "grad_norm": 1.8516736030578613,
+      "learning_rate": 7.923211169284468e-07,
+      "loss": 3.349,
+      "step": 6000
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.862221494102228,
+      "eval_loss": 3.35935640335083,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.0085,
+      "eval_samples_per_second": 115.151,
+      "eval_steps_per_second": 14.394,
+      "step": 6027
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8640235910878112,
+      "eval_loss": 3.323974370956421,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.6052,
+      "eval_samples_per_second": 113.87,
+      "eval_steps_per_second": 14.234,
+      "step": 6314
+    },
+    {
+      "epoch": 22.64808362369338,
+      "grad_norm": 1.8237162828445435,
+      "learning_rate": 7.74869109947644e-07,
+      "loss": 3.2859,
+      "step": 6500
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.8663171690694627,
+      "eval_loss": 3.288198232650757,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.8638,
+      "eval_samples_per_second": 115.467,
+      "eval_steps_per_second": 14.433,
+      "step": 6601
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8699213630406291,
+      "eval_loss": 3.2544491291046143,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.3248,
+      "eval_samples_per_second": 116.656,
+      "eval_steps_per_second": 14.582,
+      "step": 6888
+    },
+    {
+      "epoch": 24.390243902439025,
+      "grad_norm": 1.9635404348373413,
+      "learning_rate": 7.574171029668411e-07,
+      "loss": 3.2226,
+      "step": 7000
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.8697575360419397,
+      "eval_loss": 3.2205216884613037,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.8748,
+      "eval_samples_per_second": 115.443,
+      "eval_steps_per_second": 14.43,
+      "step": 7175
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8733617300131061,
+      "eval_loss": 3.1889891624450684,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.213,
+      "eval_samples_per_second": 112.593,
+      "eval_steps_per_second": 14.074,
+      "step": 7462
+    },
+    {
+      "epoch": 26.13240418118467,
+      "grad_norm": 1.7023582458496094,
+      "learning_rate": 7.399650959860384e-07,
+      "loss": 3.1622,
+      "step": 7500
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.8756553079947575,
+      "eval_loss": 3.157259941101074,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9974,
+      "eval_samples_per_second": 115.176,
+      "eval_steps_per_second": 14.397,
+      "step": 7749
+    },
+    {
+      "epoch": 27.874564459930312,
+      "grad_norm": 1.7533528804779053,
+      "learning_rate": 7.225130890052355e-07,
+      "loss": 3.1082,
+      "step": 8000
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8787680209698558,
+      "eval_loss": 3.126617908477783,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.8562,
+      "eval_samples_per_second": 115.483,
+      "eval_steps_per_second": 14.435,
+      "step": 8036
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.8807339449541285,
+      "eval_loss": 3.0970399379730225,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9688,
+      "eval_samples_per_second": 115.238,
+      "eval_steps_per_second": 14.405,
+      "step": 8323
+    },
+    {
+      "epoch": 29.61672473867596,
+      "grad_norm": 1.8451896905899048,
+      "learning_rate": 7.050610820244328e-07,
+      "loss": 3.0527,
+      "step": 8500
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.882699868938401,
+      "eval_loss": 3.068537950515747,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.723,
+      "eval_samples_per_second": 115.775,
+      "eval_steps_per_second": 14.472,
+      "step": 8610
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.8822083879423329,
+      "eval_loss": 3.0398900508880615,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.8402,
+      "eval_samples_per_second": 115.518,
+      "eval_steps_per_second": 14.44,
+      "step": 8897
+    },
+    {
+      "epoch": 31.358885017421603,
+      "grad_norm": 1.9000401496887207,
+      "learning_rate": 6.8760907504363e-07,
+      "loss": 3.0013,
+      "step": 9000
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8843381389252949,
+      "eval_loss": 3.0114569664001465,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.8176,
+      "eval_samples_per_second": 115.568,
+      "eval_steps_per_second": 14.446,
+      "step": 9184
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.8863040629095675,
+      "eval_loss": 2.9846866130828857,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9145,
+      "eval_samples_per_second": 115.356,
+      "eval_steps_per_second": 14.419,
+      "step": 9471
+    },
+    {
+      "epoch": 33.10104529616725,
+      "grad_norm": 1.8424733877182007,
+      "learning_rate": 6.701570680628273e-07,
+      "loss": 2.9544,
+      "step": 9500
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.8881061598951507,
+      "eval_loss": 2.9583957195281982,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.5577,
+      "eval_samples_per_second": 113.97,
+      "eval_steps_per_second": 14.246,
+      "step": 9758
+    },
+    {
+      "epoch": 34.84320557491289,
+      "grad_norm": 1.8269978761672974,
+      "learning_rate": 6.527050610820244e-07,
+      "loss": 2.9042,
+      "step": 10000
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.8890891218872871,
+      "eval_loss": 2.93341326713562,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.4697,
+      "eval_samples_per_second": 114.158,
+      "eval_steps_per_second": 14.27,
+      "step": 10045
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.890399737876802,
+      "eval_loss": 2.908048152923584,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.4437,
+      "eval_samples_per_second": 114.214,
+      "eval_steps_per_second": 14.277,
+      "step": 10332
+    },
+    {
+      "epoch": 36.58536585365854,
+      "grad_norm": 2.0479116439819336,
+      "learning_rate": 6.352530541012216e-07,
+      "loss": 2.8575,
+      "step": 10500
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.8907273918741808,
+      "eval_loss": 2.8831241130828857,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6355,
+      "eval_samples_per_second": 115.967,
+      "eval_steps_per_second": 14.496,
+      "step": 10619
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.8918741808650066,
+      "eval_loss": 2.860414981842041,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.5384,
+      "eval_samples_per_second": 111.921,
+      "eval_steps_per_second": 13.99,
+      "step": 10906
+    },
+    {
+      "epoch": 38.32752613240418,
+      "grad_norm": 2.2141685485839844,
+      "learning_rate": 6.178010471204188e-07,
+      "loss": 2.8171,
+      "step": 11000
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.8926933158584535,
+      "eval_loss": 2.8362042903900146,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.4046,
+      "eval_samples_per_second": 116.478,
+      "eval_steps_per_second": 14.56,
+      "step": 11193
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8940039318479686,
+      "eval_loss": 2.813732147216797,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.0566,
+      "eval_samples_per_second": 115.047,
+      "eval_steps_per_second": 14.381,
+      "step": 11480
+    },
+    {
+      "epoch": 40.069686411149824,
+      "grad_norm": 1.753510594367981,
+      "learning_rate": 6.00349040139616e-07,
+      "loss": 2.7729,
+      "step": 11500
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.8948230668414154,
+      "eval_loss": 2.7919933795928955,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.4649,
+      "eval_samples_per_second": 114.168,
+      "eval_steps_per_second": 14.271,
+      "step": 11767
+    },
+    {
+      "epoch": 41.81184668989547,
+      "grad_norm": 2.048759937286377,
+      "learning_rate": 5.828970331588133e-07,
+      "loss": 2.7358,
+      "step": 12000
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.8956422018348624,
+      "eval_loss": 2.7705893516540527,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.8824,
+      "eval_samples_per_second": 115.426,
+      "eval_steps_per_second": 14.428,
+      "step": 12054
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.89629750982962,
+      "eval_loss": 2.7493233680725098,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.4446,
+      "eval_samples_per_second": 114.212,
+      "eval_steps_per_second": 14.276,
+      "step": 12341
+    },
+    {
+      "epoch": 43.55400696864111,
+      "grad_norm": 1.7660369873046875,
+      "learning_rate": 5.654450261780105e-07,
+      "loss": 2.6966,
+      "step": 12500
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.8985910878112713,
+      "eval_loss": 2.7291805744171143,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.7207,
+      "eval_samples_per_second": 115.78,
+      "eval_steps_per_second": 14.472,
+      "step": 12628
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.8989187418086501,
+      "eval_loss": 2.708031415939331,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6994,
+      "eval_samples_per_second": 115.827,
+      "eval_steps_per_second": 14.478,
+      "step": 12915
+    },
+    {
+      "epoch": 45.29616724738676,
+      "grad_norm": 1.8633924722671509,
+      "learning_rate": 5.479930191972077e-07,
+      "loss": 2.6579,
+      "step": 13000
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.8989187418086501,
+      "eval_loss": 2.6885175704956055,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.82,
+      "eval_samples_per_second": 115.562,
+      "eval_steps_per_second": 14.445,
+      "step": 13202
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.9008846657929227,
+      "eval_loss": 2.669055461883545,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9106,
+      "eval_samples_per_second": 115.364,
+      "eval_steps_per_second": 14.421,
+      "step": 13489
+    },
+    {
+      "epoch": 47.038327526132406,
+      "grad_norm": 2.1170654296875,
+      "learning_rate": 5.305410122164049e-07,
+      "loss": 2.6229,
+      "step": 13500
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.901048492791612,
+      "eval_loss": 2.6509358882904053,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.208,
+      "eval_samples_per_second": 114.72,
+      "eval_steps_per_second": 14.34,
+      "step": 13776
+    },
+    {
+      "epoch": 48.78048780487805,
+      "grad_norm": 2.170200824737549,
+      "learning_rate": 5.13089005235602e-07,
+      "loss": 2.5897,
+      "step": 14000
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9023591087811271,
+      "eval_loss": 2.6330766677856445,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.5861,
+      "eval_samples_per_second": 113.91,
+      "eval_steps_per_second": 14.239,
+      "step": 14063
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9026867627785059,
+      "eval_loss": 2.615280866622925,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.1713,
+      "eval_samples_per_second": 114.799,
+      "eval_steps_per_second": 14.35,
+      "step": 14350
+    },
+    {
+      "epoch": 50.52264808362369,
+      "grad_norm": 2.208359956741333,
+      "learning_rate": 4.956369982547993e-07,
+      "loss": 2.5583,
+      "step": 14500
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.9025229357798165,
+      "eval_loss": 2.5973732471466064,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.7169,
+      "eval_samples_per_second": 115.788,
+      "eval_steps_per_second": 14.474,
+      "step": 14637
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9043250327653998,
+      "eval_loss": 2.581191062927246,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.1621,
+      "eval_samples_per_second": 112.699,
+      "eval_steps_per_second": 14.087,
+      "step": 14924
+    },
+    {
+      "epoch": 52.26480836236934,
+      "grad_norm": 2.159825325012207,
+      "learning_rate": 4.781849912739964e-07,
+      "loss": 2.5257,
+      "step": 15000
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9035058977719528,
+      "eval_loss": 2.564519166946411,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.0888,
+      "eval_samples_per_second": 112.851,
+      "eval_steps_per_second": 14.106,
+      "step": 15211
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9041612057667103,
+      "eval_loss": 2.5490972995758057,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.8624,
+      "eval_samples_per_second": 111.26,
+      "eval_steps_per_second": 13.908,
+      "step": 15498
+    },
+    {
+      "epoch": 54.00696864111498,
+      "grad_norm": 1.8598278760910034,
+      "learning_rate": 4.607329842931937e-07,
+      "loss": 2.4986,
+      "step": 15500
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9059633027522935,
+      "eval_loss": 2.533395528793335,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.7918,
+      "eval_samples_per_second": 115.624,
+      "eval_steps_per_second": 14.453,
+      "step": 15785
+    },
+    {
+      "epoch": 55.749128919860624,
+      "grad_norm": 1.9237112998962402,
+      "learning_rate": 4.4328097731239087e-07,
+      "loss": 2.4703,
+      "step": 16000
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9056356487549148,
+      "eval_loss": 2.5186452865600586,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6994,
+      "eval_samples_per_second": 115.827,
+      "eval_steps_per_second": 14.478,
+      "step": 16072
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.906127129750983,
+      "eval_loss": 2.504196882247925,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.0824,
+      "eval_samples_per_second": 114.991,
+      "eval_steps_per_second": 14.374,
+      "step": 16359
+    },
+    {
+      "epoch": 57.491289198606275,
+      "grad_norm": 2.3951334953308105,
+      "learning_rate": 4.258289703315881e-07,
+      "loss": 2.444,
+      "step": 16500
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9092398427260813,
+      "eval_loss": 2.48964262008667,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6693,
+      "eval_samples_per_second": 115.893,
+      "eval_steps_per_second": 14.487,
+      "step": 16646
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.9092398427260813,
+      "eval_loss": 2.4755215644836426,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.0222,
+      "eval_samples_per_second": 115.121,
+      "eval_steps_per_second": 14.39,
+      "step": 16933
+    },
+    {
+      "epoch": 59.23344947735192,
+      "grad_norm": 2.315953493118286,
+      "learning_rate": 4.083769633507853e-07,
+      "loss": 2.4157,
+      "step": 17000
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.908748361730013,
+      "eval_loss": 2.4624128341674805,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.0917,
+      "eval_samples_per_second": 114.971,
+      "eval_steps_per_second": 14.371,
+      "step": 17220
+    },
+    {
+      "epoch": 60.97560975609756,
+      "grad_norm": 2.262585401535034,
+      "learning_rate": 3.909249563699825e-07,
+      "loss": 2.3904,
+      "step": 17500
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.90956749672346,
+      "eval_loss": 2.448362112045288,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.2314,
+      "eval_samples_per_second": 114.669,
+      "eval_steps_per_second": 14.334,
+      "step": 17507
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.9102228047182176,
+      "eval_loss": 2.435769557952881,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 55.5115,
+      "eval_samples_per_second": 109.959,
+      "eval_steps_per_second": 13.745,
+      "step": 17794
+    },
+    {
+      "epoch": 62.717770034843205,
+      "grad_norm": 1.9645085334777832,
+      "learning_rate": 3.7347294938917974e-07,
+      "loss": 2.367,
+      "step": 18000
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.9110419397116645,
+      "eval_loss": 2.422717809677124,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 55.4553,
+      "eval_samples_per_second": 110.071,
+      "eval_steps_per_second": 13.759,
+      "step": 18081
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.9118610747051114,
+      "eval_loss": 2.4112889766693115,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.3035,
+      "eval_samples_per_second": 112.405,
+      "eval_steps_per_second": 14.051,
+      "step": 18368
+    },
+    {
+      "epoch": 64.45993031358886,
+      "grad_norm": 2.300833225250244,
+      "learning_rate": 3.5602094240837693e-07,
+      "loss": 2.3506,
+      "step": 18500
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.9120249017038008,
+      "eval_loss": 2.399442434310913,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.4675,
+      "eval_samples_per_second": 112.067,
+      "eval_steps_per_second": 14.008,
+      "step": 18655
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.9125163826998689,
+      "eval_loss": 2.3884286880493164,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.201,
+      "eval_samples_per_second": 112.618,
+      "eval_steps_per_second": 14.077,
+      "step": 18942
+    },
+    {
+      "epoch": 66.2020905923345,
+      "grad_norm": 2.1156551837921143,
+      "learning_rate": 3.3856893542757413e-07,
+      "loss": 2.3237,
+      "step": 19000
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.9130078636959371,
+      "eval_loss": 2.3775436878204346,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.1909,
+      "eval_samples_per_second": 112.639,
+      "eval_steps_per_second": 14.08,
+      "step": 19229
+    },
+    {
+      "epoch": 67.94425087108014,
+      "grad_norm": 1.9504848718643188,
+      "learning_rate": 3.2111692844677137e-07,
+      "loss": 2.3053,
+      "step": 19500
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.9133355176933159,
+      "eval_loss": 2.3665952682495117,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.7045,
+      "eval_samples_per_second": 111.581,
+      "eval_steps_per_second": 13.948,
+      "step": 19516
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.9131716906946264,
+      "eval_loss": 2.356461763381958,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.8382,
+      "eval_samples_per_second": 113.377,
+      "eval_steps_per_second": 14.172,
+      "step": 19803
+    },
+    {
+      "epoch": 69.68641114982579,
+      "grad_norm": 1.9092929363250732,
+      "learning_rate": 3.0366492146596856e-07,
+      "loss": 2.285,
+      "step": 20000
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.9139908256880734,
+      "eval_loss": 2.34682559967041,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.9142,
+      "eval_samples_per_second": 113.217,
+      "eval_steps_per_second": 14.152,
+      "step": 20090
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.9141546526867628,
+      "eval_loss": 2.3373236656188965,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 56.1241,
+      "eval_samples_per_second": 108.759,
+      "eval_steps_per_second": 13.595,
+      "step": 20377
+    },
+    {
+      "epoch": 71.42857142857143,
+      "grad_norm": 2.050865411758423,
+      "learning_rate": 2.8621291448516576e-07,
+      "loss": 2.2706,
+      "step": 20500
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.9141546526867628,
+      "eval_loss": 2.3278188705444336,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6008,
+      "eval_samples_per_second": 116.044,
+      "eval_steps_per_second": 14.505,
+      "step": 20664
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.9148099606815203,
+      "eval_loss": 2.3193538188934326,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.1272,
+      "eval_samples_per_second": 114.894,
+      "eval_steps_per_second": 14.362,
+      "step": 20951
+    },
+    {
+      "epoch": 73.17073170731707,
+      "grad_norm": 2.2429611682891846,
+      "learning_rate": 2.68760907504363e-07,
+      "loss": 2.2531,
+      "step": 21000
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.9161205766710354,
+      "eval_loss": 2.3109400272369385,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.1757,
+      "eval_samples_per_second": 112.671,
+      "eval_steps_per_second": 14.084,
+      "step": 21238
+    },
+    {
+      "epoch": 74.91289198606272,
+      "grad_norm": 2.5070650577545166,
+      "learning_rate": 2.513089005235602e-07,
+      "loss": 2.2372,
+      "step": 21500
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.9157929226736566,
+      "eval_loss": 2.3027830123901367,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.9429,
+      "eval_samples_per_second": 113.157,
+      "eval_steps_per_second": 14.145,
+      "step": 21525
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.915956749672346,
+      "eval_loss": 2.2948713302612305,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.7032,
+      "eval_samples_per_second": 113.662,
+      "eval_steps_per_second": 14.208,
+      "step": 21812
+    },
+    {
+      "epoch": 76.65505226480836,
+      "grad_norm": 1.9022382497787476,
+      "learning_rate": 2.338568935427574e-07,
+      "loss": 2.223,
+      "step": 22000
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.9151376146788991,
+      "eval_loss": 2.2872207164764404,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.4931,
+      "eval_samples_per_second": 116.282,
+      "eval_steps_per_second": 14.535,
+      "step": 22099
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.9161205766710354,
+      "eval_loss": 2.2804179191589355,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.9333,
+      "eval_samples_per_second": 115.315,
+      "eval_steps_per_second": 14.414,
+      "step": 22386
+    },
+    {
+      "epoch": 78.397212543554,
+      "grad_norm": 2.776266574859619,
+      "learning_rate": 2.164048865619546e-07,
+      "loss": 2.2134,
+      "step": 22500
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.9164482306684142,
+      "eval_loss": 2.2735037803649902,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 51.885,
+      "eval_samples_per_second": 117.645,
+      "eval_steps_per_second": 14.706,
+      "step": 22673
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.9166120576671035,
+      "eval_loss": 2.266995668411255,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.3579,
+      "eval_samples_per_second": 116.582,
+      "eval_steps_per_second": 14.573,
+      "step": 22960
+    },
+    {
+      "epoch": 80.13937282229965,
+      "grad_norm": 2.38444447517395,
+      "learning_rate": 1.989528795811518e-07,
+      "loss": 2.195,
+      "step": 23000
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.9166120576671035,
+      "eval_loss": 2.2608718872070312,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.4181,
+      "eval_samples_per_second": 116.448,
+      "eval_steps_per_second": 14.556,
+      "step": 23247
+    },
+    {
+      "epoch": 81.88153310104529,
+      "grad_norm": 2.126260757446289,
+      "learning_rate": 1.8150087260034902e-07,
+      "loss": 2.1856,
+      "step": 23500
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.9166120576671035,
+      "eval_loss": 2.2549705505371094,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.0305,
+      "eval_samples_per_second": 117.316,
+      "eval_steps_per_second": 14.664,
+      "step": 23534
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.9175950196592398,
+      "eval_loss": 2.2493834495544434,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 51.6617,
+      "eval_samples_per_second": 118.153,
+      "eval_steps_per_second": 14.769,
+      "step": 23821
+    },
+    {
+      "epoch": 83.62369337979094,
+      "grad_norm": 2.363184928894043,
+      "learning_rate": 1.6404886561954624e-07,
+      "loss": 2.1759,
+      "step": 24000
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.9174311926605505,
+      "eval_loss": 2.244133949279785,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 51.6512,
+      "eval_samples_per_second": 118.177,
+      "eval_steps_per_second": 14.772,
+      "step": 24108
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.918086500655308,
+      "eval_loss": 2.2390334606170654,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 50.8842,
+      "eval_samples_per_second": 119.959,
+      "eval_steps_per_second": 14.995,
+      "step": 24395
+    },
+    {
+      "epoch": 85.36585365853658,
+      "grad_norm": 2.263583183288574,
+      "learning_rate": 1.4659685863874343e-07,
+      "loss": 2.1669,
+      "step": 24500
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.9184141546526867,
+      "eval_loss": 2.2345142364501953,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 52.6434,
+      "eval_samples_per_second": 115.95,
+      "eval_steps_per_second": 14.494,
+      "step": 24682
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 0.9182503276539974,
+      "eval_loss": 2.230360984802246,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.4573,
+      "eval_samples_per_second": 114.185,
+      "eval_steps_per_second": 14.273,
+      "step": 24969
+    },
+    {
+      "epoch": 87.10801393728222,
+      "grad_norm": 2.30412220954895,
+      "learning_rate": 1.2914485165794065e-07,
+      "loss": 2.1574,
+      "step": 25000
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.9185779816513762,
+      "eval_loss": 2.226450204849243,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.9596,
+      "eval_samples_per_second": 113.122,
+      "eval_steps_per_second": 14.14,
+      "step": 25256
+    },
+    {
+      "epoch": 88.85017421602788,
+      "grad_norm": 2.065523147583008,
+      "learning_rate": 1.1169284467713787e-07,
+      "loss": 2.152,
+      "step": 25500
+    },
+    {
+      "epoch": 89.0,
+      "eval_accuracy": 0.9189056356487549,
+      "eval_loss": 2.2227816581726074,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.0621,
+      "eval_samples_per_second": 112.907,
+      "eval_steps_per_second": 14.113,
+      "step": 25543
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.9185779816513762,
+      "eval_loss": 2.2196154594421387,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.1756,
+      "eval_samples_per_second": 112.671,
+      "eval_steps_per_second": 14.084,
+      "step": 25830
+    },
+    {
+      "epoch": 90.59233449477352,
+      "grad_norm": 2.453361749649048,
+      "learning_rate": 9.424083769633507e-08,
+      "loss": 2.1462,
+      "step": 26000
+    },
+    {
+      "epoch": 91.0,
+      "eval_accuracy": 0.9182503276539974,
+      "eval_loss": 2.216709613800049,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.7343,
+      "eval_samples_per_second": 113.596,
+      "eval_steps_per_second": 14.199,
+      "step": 26117
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.9185779816513762,
+      "eval_loss": 2.214052438735962,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.4012,
+      "eval_samples_per_second": 114.305,
+      "eval_steps_per_second": 14.288,
+      "step": 26404
+    },
+    {
+      "epoch": 92.33449477351917,
+      "grad_norm": 2.680849313735962,
+      "learning_rate": 7.678883071553228e-08,
+      "loss": 2.1384,
+      "step": 26500
+    },
+    {
+      "epoch": 93.0,
+      "eval_accuracy": 0.9185779816513762,
+      "eval_loss": 2.2115318775177,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.7905,
+      "eval_samples_per_second": 111.406,
+      "eval_steps_per_second": 13.926,
+      "step": 26691
+    },
+    {
+      "epoch": 94.0,
+      "eval_accuracy": 0.9184141546526867,
+      "eval_loss": 2.209531784057617,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.296,
+      "eval_samples_per_second": 114.53,
+      "eval_steps_per_second": 14.316,
+      "step": 26978
+    },
+    {
+      "epoch": 94.07665505226481,
+      "grad_norm": 1.967248558998108,
+      "learning_rate": 5.933682373472949e-08,
+      "loss": 2.1353,
+      "step": 27000
+    },
+    {
+      "epoch": 95.0,
+      "eval_accuracy": 0.9190694626474443,
+      "eval_loss": 2.207920551300049,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 53.7765,
+      "eval_samples_per_second": 113.507,
+      "eval_steps_per_second": 14.188,
+      "step": 27265
+    },
+    {
+      "epoch": 95.81881533101046,
+      "grad_norm": 2.0648317337036133,
+      "learning_rate": 4.1884816753926704e-08,
+      "loss": 2.1324,
+      "step": 27500
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.9190694626474443,
+      "eval_loss": 2.2065632343292236,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.6903,
+      "eval_samples_per_second": 111.61,
+      "eval_steps_per_second": 13.951,
+      "step": 27552
+    },
+    {
+      "epoch": 97.0,
+      "eval_accuracy": 0.9190694626474443,
+      "eval_loss": 2.2054483890533447,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.5908,
+      "eval_samples_per_second": 111.814,
+      "eval_steps_per_second": 13.977,
+      "step": 27839
+    },
+    {
+      "epoch": 97.5609756097561,
+      "grad_norm": 2.1506221294403076,
+      "learning_rate": 2.4432809773123906e-08,
+      "loss": 2.1307,
+      "step": 28000
+    },
+    {
+      "epoch": 98.0,
+      "eval_accuracy": 0.9190694626474443,
+      "eval_loss": 2.2046942710876465,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.8026,
+      "eval_samples_per_second": 111.382,
+      "eval_steps_per_second": 13.923,
+      "step": 28126
+    },
+    {
+      "epoch": 99.0,
+      "eval_accuracy": 0.9192332896461337,
+      "eval_loss": 2.2042276859283447,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.9177,
+      "eval_samples_per_second": 111.148,
+      "eval_steps_per_second": 13.894,
+      "step": 28413
+    },
+    {
+      "epoch": 99.30313588850174,
+      "grad_norm": 1.9334636926651,
+      "learning_rate": 6.980802792321117e-09,
+      "loss": 2.1278,
+      "step": 28500
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.9192332896461337,
+      "eval_loss": 2.204108953475952,
+      "eval_model_preparation_time": 0.0056,
+      "eval_runtime": 54.2227,
+      "eval_samples_per_second": 112.573,
+      "eval_steps_per_second": 14.072,
+      "step": 28700
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 28700,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.099490807006331e+19,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-28700/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:375fecfe3250f0d7d4d281c005412dc987d92419d67a86bffe4969cb248991cd
+size 4731

config.json CHANGED Viewed

@@ -12,74 +12,73 @@
     "0": "Afghan",
     "1": "African Wild Dog",
     "2": "Airedale",
-    "3": "American  Spaniel",
-    "4": "American Hairless",
-    "5": "American Spaniel",
-    "6": "Basenji",
-    "7": "Basset",
-    "8": "Beagle",
-    "9": "Bearded Collie",
-    "10": "Bermaise",
-    "11": "Bichon Frise",
-    "12": "Blenheim",
-    "13": "Bloodhound",
-    "14": "Bluetick",
-    "15": "Border Collie",
-    "16": "Borzoi",
-    "17": "Boston Terrier",
-    "18": "Boxer",
-    "19": "Bull Mastiff",
-    "20": "Bull Terrier",
-    "21": "Bulldog",
-    "22": "Cairn",
-    "23": "Chihuahua",
-    "24": "Chinese Crested",
-    "25": "Chow",
-    "26": "Clumber",
-    "27": "Cockapoo",
-    "28": "Cocker",
-    "29": "Collie",
-    "30": "Corgi",
-    "31": "Coyote",
-    "32": "Dalmation",
-    "33": "Dhole",
-    "34": "Dingo",
-    "35": "Doberman",
-    "36": "Elk Hound",
-    "37": "French Bulldog",
-    "38": "German Sheperd",
-    "39": "Golden Retriever",
-    "40": "Great Dane",
-    "41": "Great Perenees",
-    "42": "Greyhound",
-    "43": "Groenendael",
-    "44": "Irish Spaniel",
-    "45": "Irish Wolfhound",
-    "46": "Japanese Spaniel",
-    "47": "Komondor",
-    "48": "Labradoodle",
-    "49": "Labrador",
-    "50": "Lhasa",
-    "51": "Malinois",
-    "52": "Maltese",
-    "53": "Mex Hairless",
-    "54": "Newfoundland",
-    "55": "Pekinese",
-    "56": "Pit Bull",
-    "57": "Pomeranian",
-    "58": "Poodle",
-    "59": "Pug",
-    "60": "Rhodesian",
-    "61": "Rottweiler",
-    "62": "Saint Bernard",
-    "63": "Schnauzer",
-    "64": "Scotch Terrier",
-    "65": "Shar_Pei",
-    "66": "Shiba Inu",
-    "67": "Shih-Tzu",
-    "68": "Siberian Husky",
-    "69": "Vizsla",
-    "70": "Yorkie"
   },
   "image_size": 224,
   "initializer_range": 0.02,
@@ -88,74 +87,73 @@
     "Afghan": 0,
     "African Wild Dog": 1,
     "Airedale": 2,
-    "American  Spaniel": 3,
-    "American Hairless": 4,
-    "American Spaniel": 5,
-    "Basenji": 6,
-    "Basset": 7,
-    "Beagle": 8,
-    "Bearded Collie": 9,
-    "Bermaise": 10,
-    "Bichon Frise": 11,
-    "Blenheim": 12,
-    "Bloodhound": 13,
-    "Bluetick": 14,
-    "Border Collie": 15,
-    "Borzoi": 16,
-    "Boston Terrier": 17,
-    "Boxer": 18,
-    "Bull Mastiff": 19,
-    "Bull Terrier": 20,
-    "Bulldog": 21,
-    "Cairn": 22,
-    "Chihuahua": 23,
-    "Chinese Crested": 24,
-    "Chow": 25,
-    "Clumber": 26,
-    "Cockapoo": 27,
-    "Cocker": 28,
-    "Collie": 29,
-    "Corgi": 30,
-    "Coyote": 31,
-    "Dalmation": 32,
-    "Dhole": 33,
-    "Dingo": 34,
-    "Doberman": 35,
-    "Elk Hound": 36,
-    "French Bulldog": 37,
-    "German Sheperd": 38,
-    "Golden Retriever": 39,
-    "Great Dane": 40,
-    "Great Perenees": 41,
-    "Greyhound": 42,
-    "Groenendael": 43,
-    "Irish Spaniel": 44,
-    "Irish Wolfhound": 45,
-    "Japanese Spaniel": 46,
-    "Komondor": 47,
-    "Labradoodle": 48,
-    "Labrador": 49,
-    "Lhasa": 50,
-    "Malinois": 51,
-    "Maltese": 52,
-    "Mex Hairless": 53,
-    "Newfoundland": 54,
-    "Pekinese": 55,
-    "Pit Bull": 56,
-    "Pomeranian": 57,
-    "Poodle": 58,
-    "Pug": 59,
-    "Rhodesian": 60,
-    "Rottweiler": 61,
-    "Saint Bernard": 62,
-    "Schnauzer": 63,
-    "Scotch Terrier": 64,
-    "Shar_Pei": 65,
-    "Shiba Inu": 66,
-    "Shih-Tzu": 67,
-    "Siberian Husky": 68,
-    "Vizsla": 69,
-    "Yorkie": 70
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

     "0": "Afghan",
     "1": "African Wild Dog",
     "2": "Airedale",
+    "3": "American Hairless",
+    "4": "American Spaniel",
+    "5": "Basenji",
+    "6": "Basset",
+    "7": "Beagle",
+    "8": "Bearded Collie",
+    "9": "Bermaise",
+    "10": "Bichon Frise",
+    "11": "Blenheim",
+    "12": "Bloodhound",
+    "13": "Bluetick",
+    "14": "Border Collie",
+    "15": "Borzoi",
+    "16": "Boston Terrier",
+    "17": "Boxer",
+    "18": "Bull Mastiff",
+    "19": "Bull Terrier",
+    "20": "Bulldog",
+    "21": "Cairn",
+    "22": "Chihuahua",
+    "23": "Chinese Crested",
+    "24": "Chow",
+    "25": "Clumber",
+    "26": "Cockapoo",
+    "27": "Cocker",
+    "28": "Collie",
+    "29": "Corgi",
+    "30": "Coyote",
+    "31": "Dalmation",
+    "32": "Dhole",
+    "33": "Dingo",
+    "34": "Doberman",
+    "35": "Elk Hound",
+    "36": "French Bulldog",
+    "37": "German Sheperd",
+    "38": "Golden Retriever",
+    "39": "Great Dane",
+    "40": "Great Perenees",
+    "41": "Greyhound",
+    "42": "Groenendael",
+    "43": "Irish Spaniel",
+    "44": "Irish Wolfhound",
+    "45": "Japanese Spaniel",
+    "46": "Komondor",
+    "47": "Labradoodle",
+    "48": "Labrador",
+    "49": "Lhasa",
+    "50": "Malinois",
+    "51": "Maltese",
+    "52": "Mex Hairless",
+    "53": "Newfoundland",
+    "54": "Pekinese",
+    "55": "Pit Bull",
+    "56": "Pomeranian",
+    "57": "Poodle",
+    "58": "Pug",
+    "59": "Rhodesian",
+    "60": "Rottweiler",
+    "61": "Saint Bernard",
+    "62": "Schnauzer",
+    "63": "Scotch Terrier",
+    "64": "Shar_Pei",
+    "65": "Shiba Inu",
+    "66": "Shih-Tzu",
+    "67": "Siberian Husky",
+    "68": "Vizsla",
+    "69": "Yorkie"
   },
   "image_size": 224,
   "initializer_range": 0.02,
     "Afghan": 0,
     "African Wild Dog": 1,
     "Airedale": 2,
+    "American Hairless": 3,
+    "American Spaniel": 4,
+    "Basenji": 5,
+    "Basset": 6,
+    "Beagle": 7,
+    "Bearded Collie": 8,
+    "Bermaise": 9,
+    "Bichon Frise": 10,
+    "Blenheim": 11,
+    "Bloodhound": 12,
+    "Bluetick": 13,
+    "Border Collie": 14,
+    "Borzoi": 15,
+    "Boston Terrier": 16,
+    "Boxer": 17,
+    "Bull Mastiff": 18,
+    "Bull Terrier": 19,
+    "Bulldog": 20,
+    "Cairn": 21,
+    "Chihuahua": 22,
+    "Chinese Crested": 23,
+    "Chow": 24,
+    "Clumber": 25,
+    "Cockapoo": 26,
+    "Cocker": 27,
+    "Collie": 28,
+    "Corgi": 29,
+    "Coyote": 30,
+    "Dalmation": 31,
+    "Dhole": 32,
+    "Dingo": 33,
+    "Doberman": 34,
+    "Elk Hound": 35,
+    "French Bulldog": 36,
+    "German Sheperd": 37,
+    "Golden Retriever": 38,
+    "Great Dane": 39,
+    "Great Perenees": 40,
+    "Greyhound": 41,
+    "Groenendael": 42,
+    "Irish Spaniel": 43,
+    "Irish Wolfhound": 44,
+    "Japanese Spaniel": 45,
+    "Komondor": 46,
+    "Labradoodle": 47,
+    "Labrador": 48,
+    "Lhasa": 49,
+    "Malinois": 50,
+    "Maltese": 51,
+    "Mex Hairless": 52,
+    "Newfoundland": 53,
+    "Pekinese": 54,
+    "Pit Bull": 55,
+    "Pomeranian": 56,
+    "Poodle": 57,
+    "Pug": 58,
+    "Rhodesian": 59,
+    "Rottweiler": 60,
+    "Saint Bernard": 61,
+    "Schnauzer": 62,
+    "Scotch Terrier": 63,
+    "Shar_Pei": 64,
+    "Shiba Inu": 65,
+    "Shih-Tzu": 66,
+    "Siberian Husky": 67,
+    "Vizsla": 68,
+    "Yorkie": 69
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bda49ac12533271a8bbe1efb216edbf2fe4d89614936f48267431eb3a0ba3b2d
-size 343436228

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa6f5b1f9c44c3c29d9c4c7c230929790148180797e2a7c74658d6a0569b7889
+size 343433152