fixed labeling bug

Browse files

Files changed (8) hide show

README.md +9 -7
all_results.json +4 -4
config.json +74 -74
model.safetensors +1 -1
runs/Mar30_12-24-34_837f7dd663e8/events.out.tfevents.1711801475.837f7dd663e8.302.0 +3 -0
train_results.json +4 -4
trainer_state.json +270 -91
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the pcuenq/oxford-pets dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0046
-- Accuracy: 0.9989
 ## Model description
@@ -39,8 +39,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
-- train_batch_size: 128
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -51,13 +51,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.0887        | 1.72  | 100  | 0.0765          | 0.9774   |
-| 0.0045        | 3.45  | 200  | 0.0046          | 0.9989   |
 ### Framework versions
 - Transformers 4.39.2
-- Pytorch 2.1.2
 - Datasets 2.16.0
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the pcuenq/oxford-pets dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0058
+- Accuracy: 0.9988
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
+- train_batch_size: 64
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.3713        | 0.86  | 100  | 0.2084          | 0.9307   |
+| 0.1173        | 1.72  | 200  | 0.0774          | 0.9763   |
+| 0.0612        | 2.59  | 300  | 0.0212          | 0.9947   |
+| 0.007         | 3.45  | 400  | 0.0058          | 0.9988   |
 ### Framework versions
 - Transformers 4.39.2
+- Pytorch 2.2.1+cu121
 - Datasets 2.16.0
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
-    "train_loss": 0.202088082896682,
-    "train_runtime": 854.7685,
-    "train_samples_per_second": 34.582,
-    "train_steps_per_second": 0.271
 }

 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
+    "train_loss": 0.19263494449491003,
+    "train_runtime": 813.2364,
+    "train_samples_per_second": 36.349,
+    "train_steps_per_second": 0.571
 }

config.json CHANGED Viewed

@@ -9,85 +9,85 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
-    "0": "pug Dog",
-    "1": "japanese chin Dog",
-    "10": "Ragdoll Cat",
-    "11": "scottish terrier Dog",
-    "12": "shiba inu Dog",
-    "13": "chihuahua Dog",
-    "14": "samoyed Dog",
-    "15": "Maine Coon Cat",
-    "16": "newfoundland Dog",
-    "17": "Abyssinian Cat",
-    "18": "saint bernard Dog",
-    "19": "Persian Cat",
-    "2": "american pit bull terrier Dog",
-    "20": "american bulldog Dog",
-    "21": "boxer Dog",
-    "22": "leonberger Dog",
-    "23": "german shorthaired Dog",
-    "24": "staffordshire bull terrier Dog",
-    "25": "Birman Cat",
-    "26": "english cocker spaniel Dog",
-    "27": "english setter Dog",
-    "28": "Siamese Cat",
-    "29": "Sphynx Cat",
-    "3": "beagle Dog",
-    "30": "Bombay Cat",
-    "31": "keeshond Dog",
-    "32": "havanese Dog",
-    "33": "Bengal Cat",
-    "34": "great pyrenees Dog",
-    "35": "Russian Blue Cat",
-    "36": "basset hound Dog",
-    "4": "miniature pinscher Dog",
-    "5": "pomeranian Dog",
-    "6": "yorkshire terrier Dog",
-    "7": "Egyptian Mau Cat",
-    "8": "British Shorthair Cat",
-    "9": "wheaten terrier Dog"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "Abyssinian Cat": "17",
-    "Bengal Cat": "33",
-    "Birman Cat": "25",
-    "Bombay Cat": "30",
-    "British Shorthair Cat": "8",
-    "Egyptian Mau Cat": "7",
-    "Maine Coon Cat": "15",
-    "Persian Cat": "19",
-    "Ragdoll Cat": "10",
-    "Russian Blue Cat": "35",
-    "Siamese Cat": "28",
-    "Sphynx Cat": "29",
-    "american bulldog Dog": "20",
-    "american pit bull terrier Dog": "2",
-    "basset hound Dog": "36",
-    "beagle Dog": "3",
-    "boxer Dog": "21",
-    "chihuahua Dog": "13",
-    "english cocker spaniel Dog": "26",
-    "english setter Dog": "27",
-    "german shorthaired Dog": "23",
-    "great pyrenees Dog": "34",
-    "havanese Dog": "32",
-    "japanese chin Dog": "1",
-    "keeshond Dog": "31",
-    "leonberger Dog": "22",
-    "miniature pinscher Dog": "4",
-    "newfoundland Dog": "16",
-    "pomeranian Dog": "5",
-    "pug Dog": "0",
-    "saint bernard Dog": "18",
-    "samoyed Dog": "14",
-    "scottish terrier Dog": "11",
-    "shiba inu Dog": "12",
-    "staffordshire bull terrier Dog": "24",
-    "wheaten terrier Dog": "9",
-    "yorkshire terrier Dog": "6"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
+    "0": "saint bernard dog",
+    "1": "Ragdoll cat",
+    "10": "keeshond dog",
+    "11": "english cocker spaniel dog",
+    "12": "beagle dog",
+    "13": "Russian Blue cat",
+    "14": "scottish terrier dog",
+    "15": "newfoundland dog",
+    "16": "Bombay cat",
+    "17": "Bengal cat",
+    "18": "japanese chin dog",
+    "19": "Sphynx cat",
+    "2": "havanese dog",
+    "20": "Persian cat",
+    "21": "shiba inu dog",
+    "22": "english setter dog",
+    "23": "great pyrenees dog",
+    "24": "chihuahua dog",
+    "25": "miniature pinscher dog",
+    "26": "pomeranian dog",
+    "27": "Abyssinian cat",
+    "28": "basset hound dog",
+    "29": "Birman cat",
+    "3": "Egyptian Mau cat",
+    "30": "german shorthaired dog",
+    "31": "american bulldog dog",
+    "32": "american pit bull terrier dog",
+    "33": "staffordshire bull terrier dog",
+    "34": "Maine Coon cat",
+    "35": "samoyed dog",
+    "36": "boxer dog",
+    "4": "Siamese cat",
+    "5": "yorkshire terrier dog",
+    "6": "leonberger dog",
+    "7": "pug dog",
+    "8": "British Shorthair cat",
+    "9": "wheaten terrier dog"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "Abyssinian cat": "27",
+    "Bengal cat": "17",
+    "Birman cat": "29",
+    "Bombay cat": "16",
+    "British Shorthair cat": "8",
+    "Egyptian Mau cat": "3",
+    "Maine Coon cat": "34",
+    "Persian cat": "20",
+    "Ragdoll cat": "1",
+    "Russian Blue cat": "13",
+    "Siamese cat": "4",
+    "Sphynx cat": "19",
+    "american bulldog dog": "31",
+    "american pit bull terrier dog": "32",
+    "basset hound dog": "28",
+    "beagle dog": "12",
+    "boxer dog": "36",
+    "chihuahua dog": "24",
+    "english cocker spaniel dog": "11",
+    "english setter dog": "22",
+    "german shorthaired dog": "30",
+    "great pyrenees dog": "23",
+    "havanese dog": "2",
+    "japanese chin dog": "18",
+    "keeshond dog": "10",
+    "leonberger dog": "6",
+    "miniature pinscher dog": "25",
+    "newfoundland dog": "15",
+    "pomeranian dog": "26",
+    "pug dog": "7",
+    "saint bernard dog": "0",
+    "samoyed dog": "35",
+    "scottish terrier dog": "14",
+    "shiba inu dog": "21",
+    "staffordshire bull terrier dog": "33",
+    "wheaten terrier dog": "9",
+    "yorkshire terrier dog": "5"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04c848cc43804867db29602b8504492e7669c8936edf4fab2780cde439ea8afb
 size 343331644

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f4f4ab3ed13788b1a113a26071c629101eaba9b3e315e4735a8da6b713924ef
 size 343331644

runs/Mar30_12-24-34_837f7dd663e8/events.out.tfevents.1711801475.837f7dd663e8.302.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8924dd3a6ae61d904ce53789aa448b46fef86f8445ba5c9b93855ead830a4a1a
+size 17991

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
-    "train_loss": 0.202088082896682,
-    "train_runtime": 854.7685,
-    "train_samples_per_second": 34.582,
-    "train_steps_per_second": 0.271
 }

 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
+    "train_loss": 0.19263494449491003,
+    "train_runtime": 813.2364,
+    "train_samples_per_second": 36.349,
+    "train_steps_per_second": 0.571
 }

trainer_state.json CHANGED Viewed

@@ -1,209 +1,388 @@
 {
-  "best_metric": 0.004596503917127848,
-  "best_model_checkpoint": "./vit-base-pets/checkpoint-200",
   "epoch": 4.0,
   "eval_steps": 100,
-  "global_step": 232,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.17,
-      "grad_norm": 168186.984375,
       "learning_rate": 0.0002870689655172413,
-      "loss": 2.1401,
-      "step": 10
     },
     {
       "epoch": 0.34,
-      "grad_norm": 134643.921875,
       "learning_rate": 0.0002741379310344827,
-      "loss": 0.5937,
-      "step": 20
     },
     {
       "epoch": 0.52,
-      "grad_norm": 117247.1015625,
       "learning_rate": 0.00026120689655172413,
-      "loss": 0.3283,
-      "step": 30
     },
     {
       "epoch": 0.69,
-      "grad_norm": 148088.53125,
       "learning_rate": 0.0002482758620689655,
-      "loss": 0.3447,
-      "step": 40
     },
     {
       "epoch": 0.86,
-      "grad_norm": 118186.203125,
       "learning_rate": 0.00023534482758620685,
-      "loss": 0.2972,
-      "step": 50
     },
     {
       "epoch": 1.03,
-      "grad_norm": 89050.390625,
       "learning_rate": 0.00022241379310344826,
-      "loss": 0.2425,
-      "step": 60
     },
     {
       "epoch": 1.21,
-      "grad_norm": 50770.4296875,
       "learning_rate": 0.00020948275862068963,
-      "loss": 0.1025,
-      "step": 70
     },
     {
       "epoch": 1.38,
-      "grad_norm": 102693.65625,
       "learning_rate": 0.000196551724137931,
-      "loss": 0.0998,
-      "step": 80
     },
     {
       "epoch": 1.55,
-      "grad_norm": 58018.40234375,
       "learning_rate": 0.0001836206896551724,
-      "loss": 0.1048,
-      "step": 90
     },
     {
       "epoch": 1.72,
-      "grad_norm": 51126.80078125,
       "learning_rate": 0.0001706896551724138,
-      "loss": 0.0887,
-      "step": 100
     },
     {
       "epoch": 1.72,
-      "eval_accuracy": 0.9774018944519621,
-      "eval_loss": 0.07652416825294495,
-      "eval_runtime": 90.7155,
-      "eval_samples_per_second": 81.463,
-      "eval_steps_per_second": 5.093,
-      "step": 100
     },
     {
       "epoch": 1.9,
-      "grad_norm": 86962.4921875,
       "learning_rate": 0.00015775862068965517,
-      "loss": 0.0926,
-      "step": 110
     },
     {
       "epoch": 2.07,
-      "grad_norm": 72358.4609375,
       "learning_rate": 0.00014482758620689654,
-      "loss": 0.0706,
-      "step": 120
     },
     {
       "epoch": 2.24,
-      "grad_norm": 20616.7109375,
       "learning_rate": 0.00013189655172413792,
-      "loss": 0.039,
-      "step": 130
     },
     {
       "epoch": 2.41,
-      "grad_norm": 70676.0625,
       "learning_rate": 0.00011896551724137931,
-      "loss": 0.0351,
-      "step": 140
     },
     {
       "epoch": 2.59,
-      "grad_norm": 12601.1337890625,
       "learning_rate": 0.00010603448275862067,
-      "loss": 0.0263,
-      "step": 150
     },
     {
       "epoch": 2.76,
-      "grad_norm": 77678.21875,
       "learning_rate": 9.310344827586206e-05,
-      "loss": 0.0296,
-      "step": 160
     },
     {
       "epoch": 2.93,
-      "grad_norm": 36381.59765625,
       "learning_rate": 8.017241379310344e-05,
-      "loss": 0.025,
-      "step": 170
     },
     {
       "epoch": 3.1,
-      "grad_norm": 12375.634765625,
       "learning_rate": 6.724137931034483e-05,
-      "loss": 0.0087,
-      "step": 180
     },
     {
       "epoch": 3.28,
-      "grad_norm": 1895.7933349609375,
       "learning_rate": 5.4310344827586204e-05,
-      "loss": 0.0043,
-      "step": 190
     },
     {
       "epoch": 3.45,
-      "grad_norm": 49621.76171875,
       "learning_rate": 4.137931034482758e-05,
-      "loss": 0.0045,
-      "step": 200
     },
     {
       "epoch": 3.45,
-      "eval_accuracy": 0.9989174560216508,
-      "eval_loss": 0.004596503917127848,
-      "eval_runtime": 91.6398,
-      "eval_samples_per_second": 80.642,
-      "eval_steps_per_second": 5.041,
-      "step": 200
     },
     {
       "epoch": 3.62,
-      "grad_norm": 798.2269287109375,
       "learning_rate": 2.8448275862068963e-05,
-      "loss": 0.0045,
-      "step": 210
     },
     {
       "epoch": 3.79,
-      "grad_norm": 2413.81640625,
       "learning_rate": 1.5517241379310342e-05,
-      "loss": 0.0034,
-      "step": 220
     },
     {
       "epoch": 3.97,
-      "grad_norm": 908.8674926757812,
       "learning_rate": 2.5862068965517237e-06,
-      "loss": 0.0021,
-      "step": 230
     },
     {
       "epoch": 4.0,
-      "step": 232,
       "total_flos": 2.2913817801515827e+18,
-      "train_loss": 0.202088082896682,
-      "train_runtime": 854.7685,
-      "train_samples_per_second": 34.582,
-      "train_steps_per_second": 0.271
     }
   ],
   "logging_steps": 10,
-  "max_steps": 232,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 100,
   "total_flos": 2.2913817801515827e+18,
-  "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.005833666305989027,
+  "best_model_checkpoint": "./vit-base-pets/checkpoint-400",
   "epoch": 4.0,
   "eval_steps": 100,
+  "global_step": 464,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.09,
+      "grad_norm": 3.28558611869812,
+      "learning_rate": 0.00029353448275862065,
+      "loss": 2.365,
+      "step": 10
+    },
     {
       "epoch": 0.17,
+      "grad_norm": 2.781508684158325,
       "learning_rate": 0.0002870689655172413,
+      "loss": 0.7805,
+      "step": 20
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.789832353591919,
+      "learning_rate": 0.00028060344827586205,
+      "loss": 0.4669,
+      "step": 30
     },
     {
       "epoch": 0.34,
+      "grad_norm": 3.0019114017486572,
       "learning_rate": 0.0002741379310344827,
+      "loss": 0.4777,
+      "step": 40
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 2.8678109645843506,
+      "learning_rate": 0.00026767241379310345,
+      "loss": 0.3825,
+      "step": 50
     },
     {
       "epoch": 0.52,
+      "grad_norm": 1.979690432548523,
       "learning_rate": 0.00026120689655172413,
+      "loss": 0.3924,
+      "step": 60
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.9895226955413818,
+      "learning_rate": 0.0002547413793103448,
+      "loss": 0.307,
+      "step": 70
     },
     {
       "epoch": 0.69,
+      "grad_norm": 2.970583438873291,
       "learning_rate": 0.0002482758620689655,
+      "loss": 0.4071,
+      "step": 80
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 3.0911920070648193,
+      "learning_rate": 0.00024181034482758618,
+      "loss": 0.3594,
+      "step": 90
     },
     {
       "epoch": 0.86,
+      "grad_norm": 2.5045769214630127,
       "learning_rate": 0.00023534482758620685,
+      "loss": 0.3713,
+      "step": 100
+    },
+    {
+      "epoch": 0.86,
+      "eval_accuracy": 0.9307171853856563,
+      "eval_loss": 0.20842242240905762,
+      "eval_runtime": 68.2075,
+      "eval_samples_per_second": 108.346,
+      "eval_steps_per_second": 13.547,
+      "step": 100
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.4575306177139282,
+      "learning_rate": 0.00022887931034482758,
+      "loss": 0.3301,
+      "step": 110
     },
     {
       "epoch": 1.03,
+      "grad_norm": 1.9479578733444214,
       "learning_rate": 0.00022241379310344826,
+      "loss": 0.2504,
+      "step": 120
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 1.73411226272583,
+      "learning_rate": 0.00021594827586206896,
+      "loss": 0.1697,
+      "step": 130
     },
     {
       "epoch": 1.21,
+      "grad_norm": 1.672253966331482,
       "learning_rate": 0.00020948275862068963,
+      "loss": 0.116,
+      "step": 140
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 2.3492820262908936,
+      "learning_rate": 0.00020301724137931034,
+      "loss": 0.158,
+      "step": 150
     },
     {
       "epoch": 1.38,
+      "grad_norm": 1.4678938388824463,
       "learning_rate": 0.000196551724137931,
+      "loss": 0.1487,
+      "step": 160
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 2.1428756713867188,
+      "learning_rate": 0.00019008620689655169,
+      "loss": 0.1121,
+      "step": 170
     },
     {
       "epoch": 1.55,
+      "grad_norm": 1.255344271659851,
       "learning_rate": 0.0001836206896551724,
+      "loss": 0.1548,
+      "step": 180
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 1.692832350730896,
+      "learning_rate": 0.0001771551724137931,
+      "loss": 0.0916,
+      "step": 190
     },
     {
       "epoch": 1.72,
+      "grad_norm": 2.322737693786621,
       "learning_rate": 0.0001706896551724138,
+      "loss": 0.1173,
+      "step": 200
     },
     {
       "epoch": 1.72,
+      "eval_accuracy": 0.976319350473613,
+      "eval_loss": 0.07739943265914917,
+      "eval_runtime": 67.8967,
+      "eval_samples_per_second": 108.842,
+      "eval_steps_per_second": 13.609,
+      "step": 200
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 1.99238920211792,
+      "learning_rate": 0.00016422413793103446,
+      "loss": 0.1311,
+      "step": 210
     },
     {
       "epoch": 1.9,
+      "grad_norm": 2.3652477264404297,
       "learning_rate": 0.00015775862068965517,
+      "loss": 0.1114,
+      "step": 220
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.3925710916519165,
+      "learning_rate": 0.00015129310344827584,
+      "loss": 0.1235,
+      "step": 230
     },
     {
       "epoch": 2.07,
+      "grad_norm": 2.0290815830230713,
       "learning_rate": 0.00014482758620689654,
+      "loss": 0.0772,
+      "step": 240
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 2.4121060371398926,
+      "learning_rate": 0.00013836206896551724,
+      "loss": 0.0715,
+      "step": 250
     },
     {
       "epoch": 2.24,
+      "grad_norm": 0.9658297300338745,
       "learning_rate": 0.00013189655172413792,
+      "loss": 0.0444,
+      "step": 260
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 0.24860858917236328,
+      "learning_rate": 0.0001254310344827586,
+      "loss": 0.0668,
+      "step": 270
     },
     {
       "epoch": 2.41,
+      "grad_norm": 1.50627601146698,
       "learning_rate": 0.00011896551724137931,
+      "loss": 0.034,
+      "step": 280
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.2053415775299072,
+      "learning_rate": 0.0001125,
+      "loss": 0.0489,
+      "step": 290
     },
     {
       "epoch": 2.59,
+      "grad_norm": 1.2974027395248413,
       "learning_rate": 0.00010603448275862067,
+      "loss": 0.0612,
+      "step": 300
+    },
+    {
+      "epoch": 2.59,
+      "eval_accuracy": 0.9947225981055481,
+      "eval_loss": 0.021214015781879425,
+      "eval_runtime": 67.3034,
+      "eval_samples_per_second": 109.801,
+      "eval_steps_per_second": 13.729,
+      "step": 300
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 0.22053079307079315,
+      "learning_rate": 9.956896551724137e-05,
+      "loss": 0.0308,
+      "step": 310
     },
     {
       "epoch": 2.76,
+      "grad_norm": 0.8180058002471924,
       "learning_rate": 9.310344827586206e-05,
+      "loss": 0.03,
+      "step": 320
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 1.5855587720870972,
+      "learning_rate": 8.663793103448275e-05,
+      "loss": 0.0235,
+      "step": 330
     },
     {
       "epoch": 2.93,
+      "grad_norm": 1.7537671327590942,
       "learning_rate": 8.017241379310344e-05,
+      "loss": 0.0225,
+      "step": 340
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.10956920683383942,
+      "learning_rate": 7.370689655172413e-05,
+      "loss": 0.0156,
+      "step": 350
     },
     {
       "epoch": 3.1,
+      "grad_norm": 1.1361974477767944,
       "learning_rate": 6.724137931034483e-05,
+      "loss": 0.0094,
+      "step": 360
+    },
+    {
+      "epoch": 3.19,
+      "grad_norm": 0.9139267802238464,
+      "learning_rate": 6.077586206896551e-05,
+      "loss": 0.0128,
+      "step": 370
     },
     {
       "epoch": 3.28,
+      "grad_norm": 0.12278908491134644,
       "learning_rate": 5.4310344827586204e-05,
+      "loss": 0.0087,
+      "step": 380
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 0.0675448328256607,
+      "learning_rate": 4.78448275862069e-05,
+      "loss": 0.0048,
+      "step": 390
     },
     {
       "epoch": 3.45,
+      "grad_norm": 0.05717047303915024,
       "learning_rate": 4.137931034482758e-05,
+      "loss": 0.007,
+      "step": 400
     },
     {
       "epoch": 3.45,
+      "eval_accuracy": 0.9987821380243572,
+      "eval_loss": 0.005833666305989027,
+      "eval_runtime": 68.7353,
+      "eval_samples_per_second": 107.514,
+      "eval_steps_per_second": 13.443,
+      "step": 400
+    },
+    {
+      "epoch": 3.53,
+      "grad_norm": 0.04572397843003273,
+      "learning_rate": 3.4913793103448275e-05,
+      "loss": 0.0051,
+      "step": 410
     },
     {
       "epoch": 3.62,
+      "grad_norm": 0.16931650042533875,
       "learning_rate": 2.8448275862068963e-05,
+      "loss": 0.006,
+      "step": 420
+    },
+    {
+      "epoch": 3.71,
+      "grad_norm": 0.041402418166399,
+      "learning_rate": 2.198275862068965e-05,
+      "loss": 0.0054,
+      "step": 430
     },
     {
       "epoch": 3.79,
+      "grad_norm": 0.02362515777349472,
       "learning_rate": 1.5517241379310342e-05,
+      "loss": 0.0086,
+      "step": 440
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 0.3355587422847748,
+      "learning_rate": 9.051724137931034e-06,
+      "loss": 0.0039,
+      "step": 450
     },
     {
       "epoch": 3.97,
+      "grad_norm": 0.03504301235079765,
       "learning_rate": 2.5862068965517237e-06,
+      "loss": 0.0135,
+      "step": 460
     },
     {
       "epoch": 4.0,
+      "step": 464,
       "total_flos": 2.2913817801515827e+18,
+      "train_loss": 0.19263494449491003,
+      "train_runtime": 813.2364,
+      "train_samples_per_second": 36.349,
+      "train_steps_per_second": 0.571
     }
   ],
   "logging_steps": 10,
+  "max_steps": 464,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 100,
   "total_flos": 2.2913817801515827e+18,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0bf29b9cfaa423385553cd4c1a9ee40cd1712cd86c4bf40b3c7f39094ea7217
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2d9f5cc8c59e3763badc8aaac1a4d41fe76330287aca603b90141946989fe67
 size 4920