Cheers 🎉

Browse files

Files changed (7) hide show

README.md +4 -3
all_results.json +13 -0
eval_results.json +8 -0
runs/Dec08_13-06-01_18af7fa0d1da/events.out.tfevents.1733666434.18af7fa0d1da.837.2 +3 -0
test_results.json +8 -0
train_results.json +8 -0
trainer_state.json +1743 -0

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -16,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # ViT-NIH-Chest-X-ray-dataset-small
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0923
-- Accuracy: 0.6526
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # ViT-NIH-Chest-X-ray-dataset-small
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the beans dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2988
+- Accuracy: 0.2299
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 8.0,
+    "eval_accuracy": 0.22986708365910868,
+    "eval_loss": 0.2988394498825073,
+    "eval_runtime": 39.1477,
+    "eval_samples_per_second": 32.671,
+    "eval_steps_per_second": 4.087,
+    "total_flos": 2.6821552511927255e+18,
+    "train_loss": 0.16216810325304962,
+    "train_runtime": 3143.5173,
+    "train_samples_per_second": 11.009,
+    "train_steps_per_second": 0.69
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 8.0,
+    "eval_accuracy": 0.6526011560693642,
+    "eval_loss": 0.0923289805650711,
+    "eval_runtime": 56.6908,
+    "eval_samples_per_second": 30.516,
+    "eval_steps_per_second": 3.828
+}

runs/Dec08_13-06-01_18af7fa0d1da/events.out.tfevents.1733666434.18af7fa0d1da.837.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fedcd6fef977b6723b6a556e2363f7a526dff034073a085c72a0301e5d95c4a
+size 734

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 8.0,
+    "eval_accuracy": 0.22986708365910868,
+    "eval_loss": 0.2988394498825073,
+    "eval_runtime": 39.1477,
+    "eval_samples_per_second": 32.671,
+    "eval_steps_per_second": 4.087
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 8.0,
+    "total_flos": 2.6821552511927255e+18,
+    "train_loss": 0.16216810325304962,
+    "train_runtime": 3143.5173,
+    "train_samples_per_second": 11.009,
+    "train_steps_per_second": 0.69
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1743 @@

+{
+  "best_metric": 0.0923289805650711,
+  "best_model_checkpoint": "./ViT-NIH-Chest-X-ray-dataset-small/checkpoint-2100",
+  "epoch": 8.0,
+  "eval_steps": 100,
+  "global_step": 2168,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03690036900369004,
+      "grad_norm": 0.38048115372657776,
+      "learning_rate": 0.00019907749077490775,
+      "loss": 0.5131,
+      "step": 10
+    },
+    {
+      "epoch": 0.07380073800738007,
+      "grad_norm": 0.3416444957256317,
+      "learning_rate": 0.00019815498154981552,
+      "loss": 0.3661,
+      "step": 20
+    },
+    {
+      "epoch": 0.11070110701107011,
+      "grad_norm": 0.268430233001709,
+      "learning_rate": 0.00019723247232472326,
+      "loss": 0.3122,
+      "step": 30
+    },
+    {
+      "epoch": 0.14760147601476015,
+      "grad_norm": 0.20281535387039185,
+      "learning_rate": 0.000196309963099631,
+      "loss": 0.2862,
+      "step": 40
+    },
+    {
+      "epoch": 0.18450184501845018,
+      "grad_norm": 0.17638804018497467,
+      "learning_rate": 0.00019538745387453877,
+      "loss": 0.2582,
+      "step": 50
+    },
+    {
+      "epoch": 0.22140221402214022,
+      "grad_norm": 0.13983863592147827,
+      "learning_rate": 0.00019446494464944652,
+      "loss": 0.2621,
+      "step": 60
+    },
+    {
+      "epoch": 0.25830258302583026,
+      "grad_norm": 0.1306193470954895,
+      "learning_rate": 0.00019354243542435426,
+      "loss": 0.2361,
+      "step": 70
+    },
+    {
+      "epoch": 0.2952029520295203,
+      "grad_norm": 0.12178371101617813,
+      "learning_rate": 0.000192619926199262,
+      "loss": 0.2271,
+      "step": 80
+    },
+    {
+      "epoch": 0.33210332103321033,
+      "grad_norm": 0.09625957161188126,
+      "learning_rate": 0.00019169741697416974,
+      "loss": 0.2275,
+      "step": 90
+    },
+    {
+      "epoch": 0.36900369003690037,
+      "grad_norm": 0.12183211743831635,
+      "learning_rate": 0.00019077490774907748,
+      "loss": 0.2128,
+      "step": 100
+    },
+    {
+      "epoch": 0.36900369003690037,
+      "eval_accuracy": 0.0,
+      "eval_loss": 0.20924170315265656,
+      "eval_runtime": 51.5235,
+      "eval_samples_per_second": 33.577,
+      "eval_steps_per_second": 4.212,
+      "step": 100
+    },
+    {
+      "epoch": 0.4059040590405904,
+      "grad_norm": 0.08246201276779175,
+      "learning_rate": 0.00018985239852398525,
+      "loss": 0.2089,
+      "step": 110
+    },
+    {
+      "epoch": 0.44280442804428044,
+      "grad_norm": 0.11126121133565903,
+      "learning_rate": 0.000188929889298893,
+      "loss": 0.2147,
+      "step": 120
+    },
+    {
+      "epoch": 0.4797047970479705,
+      "grad_norm": 0.11177172511816025,
+      "learning_rate": 0.00018800738007380074,
+      "loss": 0.2044,
+      "step": 130
+    },
+    {
+      "epoch": 0.5166051660516605,
+      "grad_norm": 0.10021921247243881,
+      "learning_rate": 0.0001870848708487085,
+      "loss": 0.1839,
+      "step": 140
+    },
+    {
+      "epoch": 0.5535055350553506,
+      "grad_norm": 0.185609832406044,
+      "learning_rate": 0.00018616236162361625,
+      "loss": 0.2209,
+      "step": 150
+    },
+    {
+      "epoch": 0.5904059040590406,
+      "grad_norm": 0.17880532145500183,
+      "learning_rate": 0.000185239852398524,
+      "loss": 0.2023,
+      "step": 160
+    },
+    {
+      "epoch": 0.6273062730627307,
+      "grad_norm": 0.09112340211868286,
+      "learning_rate": 0.00018431734317343173,
+      "loss": 0.1952,
+      "step": 170
+    },
+    {
+      "epoch": 0.6642066420664207,
+      "grad_norm": 0.14496631920337677,
+      "learning_rate": 0.0001833948339483395,
+      "loss": 0.2154,
+      "step": 180
+    },
+    {
+      "epoch": 0.7011070110701108,
+      "grad_norm": 0.1129971593618393,
+      "learning_rate": 0.00018247232472324724,
+      "loss": 0.1865,
+      "step": 190
+    },
+    {
+      "epoch": 0.7380073800738007,
+      "grad_norm": 0.1439884454011917,
+      "learning_rate": 0.00018154981549815499,
+      "loss": 0.1848,
+      "step": 200
+    },
+    {
+      "epoch": 0.7380073800738007,
+      "eval_accuracy": 0.38208092485549133,
+      "eval_loss": 0.1909271478652954,
+      "eval_runtime": 51.554,
+      "eval_samples_per_second": 33.557,
+      "eval_steps_per_second": 4.209,
+      "step": 200
+    },
+    {
+      "epoch": 0.7749077490774908,
+      "grad_norm": 0.1933569312095642,
+      "learning_rate": 0.00018062730627306276,
+      "loss": 0.1921,
+      "step": 210
+    },
+    {
+      "epoch": 0.8118081180811808,
+      "grad_norm": 0.19441623985767365,
+      "learning_rate": 0.0001797047970479705,
+      "loss": 0.2087,
+      "step": 220
+    },
+    {
+      "epoch": 0.8487084870848709,
+      "grad_norm": 0.10429559648036957,
+      "learning_rate": 0.00017878228782287824,
+      "loss": 0.2016,
+      "step": 230
+    },
+    {
+      "epoch": 0.8856088560885609,
+      "grad_norm": 0.11976602673530579,
+      "learning_rate": 0.00017785977859778598,
+      "loss": 0.1871,
+      "step": 240
+    },
+    {
+      "epoch": 0.922509225092251,
+      "grad_norm": 0.13647252321243286,
+      "learning_rate": 0.00017693726937269372,
+      "loss": 0.1951,
+      "step": 250
+    },
+    {
+      "epoch": 0.959409594095941,
+      "grad_norm": 0.13491246104240417,
+      "learning_rate": 0.00017601476014760147,
+      "loss": 0.1987,
+      "step": 260
+    },
+    {
+      "epoch": 0.996309963099631,
+      "grad_norm": 0.10877779126167297,
+      "learning_rate": 0.00017509225092250923,
+      "loss": 0.2067,
+      "step": 270
+    },
+    {
+      "epoch": 1.033210332103321,
+      "grad_norm": 0.10195717215538025,
+      "learning_rate": 0.00017416974169741698,
+      "loss": 0.1829,
+      "step": 280
+    },
+    {
+      "epoch": 1.070110701107011,
+      "grad_norm": 0.11287475377321243,
+      "learning_rate": 0.00017324723247232472,
+      "loss": 0.1771,
+      "step": 290
+    },
+    {
+      "epoch": 1.1070110701107012,
+      "grad_norm": 0.10177090764045715,
+      "learning_rate": 0.0001723247232472325,
+      "loss": 0.171,
+      "step": 300
+    },
+    {
+      "epoch": 1.1070110701107012,
+      "eval_accuracy": 0.5387283236994219,
+      "eval_loss": 0.1967419981956482,
+      "eval_runtime": 50.6773,
+      "eval_samples_per_second": 34.138,
+      "eval_steps_per_second": 4.282,
+      "step": 300
+    },
+    {
+      "epoch": 1.1439114391143912,
+      "grad_norm": 0.14216077327728271,
+      "learning_rate": 0.00017140221402214023,
+      "loss": 0.2104,
+      "step": 310
+    },
+    {
+      "epoch": 1.1808118081180812,
+      "grad_norm": 0.0753447487950325,
+      "learning_rate": 0.00017047970479704797,
+      "loss": 0.201,
+      "step": 320
+    },
+    {
+      "epoch": 1.2177121771217712,
+      "grad_norm": 0.13927125930786133,
+      "learning_rate": 0.00016955719557195574,
+      "loss": 0.1923,
+      "step": 330
+    },
+    {
+      "epoch": 1.2546125461254611,
+      "grad_norm": 0.14396004378795624,
+      "learning_rate": 0.00016863468634686348,
+      "loss": 0.1996,
+      "step": 340
+    },
+    {
+      "epoch": 1.2915129151291513,
+      "grad_norm": 0.09631673246622086,
+      "learning_rate": 0.00016771217712177123,
+      "loss": 0.1672,
+      "step": 350
+    },
+    {
+      "epoch": 1.3284132841328413,
+      "grad_norm": 0.1342993974685669,
+      "learning_rate": 0.00016678966789667897,
+      "loss": 0.1792,
+      "step": 360
+    },
+    {
+      "epoch": 1.3653136531365313,
+      "grad_norm": 0.20273268222808838,
+      "learning_rate": 0.00016586715867158674,
+      "loss": 0.1753,
+      "step": 370
+    },
+    {
+      "epoch": 1.4022140221402215,
+      "grad_norm": 0.1452128291130066,
+      "learning_rate": 0.00016494464944649448,
+      "loss": 0.1801,
+      "step": 380
+    },
+    {
+      "epoch": 1.4391143911439115,
+      "grad_norm": 0.0973893478512764,
+      "learning_rate": 0.00016402214022140222,
+      "loss": 0.2136,
+      "step": 390
+    },
+    {
+      "epoch": 1.4760147601476015,
+      "grad_norm": 0.2589876651763916,
+      "learning_rate": 0.00016309963099630996,
+      "loss": 0.1772,
+      "step": 400
+    },
+    {
+      "epoch": 1.4760147601476015,
+      "eval_accuracy": 0.5450867052023122,
+      "eval_loss": 0.19317613542079926,
+      "eval_runtime": 50.5026,
+      "eval_samples_per_second": 34.256,
+      "eval_steps_per_second": 4.297,
+      "step": 400
+    },
+    {
+      "epoch": 1.5129151291512914,
+      "grad_norm": 0.16841156780719757,
+      "learning_rate": 0.0001621771217712177,
+      "loss": 0.1894,
+      "step": 410
+    },
+    {
+      "epoch": 1.5498154981549814,
+      "grad_norm": 0.17766626179218292,
+      "learning_rate": 0.00016125461254612547,
+      "loss": 0.204,
+      "step": 420
+    },
+    {
+      "epoch": 1.5867158671586716,
+      "grad_norm": 0.13253839313983917,
+      "learning_rate": 0.00016033210332103322,
+      "loss": 0.2141,
+      "step": 430
+    },
+    {
+      "epoch": 1.6236162361623616,
+      "grad_norm": 0.10587523877620697,
+      "learning_rate": 0.00015940959409594096,
+      "loss": 0.2192,
+      "step": 440
+    },
+    {
+      "epoch": 1.6605166051660518,
+      "grad_norm": 0.10049675405025482,
+      "learning_rate": 0.0001584870848708487,
+      "loss": 0.1939,
+      "step": 450
+    },
+    {
+      "epoch": 1.6974169741697418,
+      "grad_norm": 0.1287400722503662,
+      "learning_rate": 0.00015756457564575647,
+      "loss": 0.1955,
+      "step": 460
+    },
+    {
+      "epoch": 1.7343173431734318,
+      "grad_norm": 0.15120339393615723,
+      "learning_rate": 0.0001566420664206642,
+      "loss": 0.1863,
+      "step": 470
+    },
+    {
+      "epoch": 1.7712177121771218,
+      "grad_norm": 0.1202373206615448,
+      "learning_rate": 0.00015571955719557195,
+      "loss": 0.1832,
+      "step": 480
+    },
+    {
+      "epoch": 1.8081180811808117,
+      "grad_norm": 0.1368759572505951,
+      "learning_rate": 0.00015479704797047972,
+      "loss": 0.2007,
+      "step": 490
+    },
+    {
+      "epoch": 1.8450184501845017,
+      "grad_norm": 0.08591968566179276,
+      "learning_rate": 0.00015387453874538746,
+      "loss": 0.1629,
+      "step": 500
+    },
+    {
+      "epoch": 1.8450184501845017,
+      "eval_accuracy": 0.4485549132947977,
+      "eval_loss": 0.1842162311077118,
+      "eval_runtime": 50.5861,
+      "eval_samples_per_second": 34.199,
+      "eval_steps_per_second": 4.29,
+      "step": 500
+    },
+    {
+      "epoch": 1.881918819188192,
+      "grad_norm": 0.12317466735839844,
+      "learning_rate": 0.0001529520295202952,
+      "loss": 0.213,
+      "step": 510
+    },
+    {
+      "epoch": 1.918819188191882,
+      "grad_norm": 0.15092293918132782,
+      "learning_rate": 0.00015202952029520298,
+      "loss": 0.2004,
+      "step": 520
+    },
+    {
+      "epoch": 1.9557195571955721,
+      "grad_norm": 0.20343895256519318,
+      "learning_rate": 0.00015110701107011072,
+      "loss": 0.1835,
+      "step": 530
+    },
+    {
+      "epoch": 1.992619926199262,
+      "grad_norm": 0.32362422347068787,
+      "learning_rate": 0.00015018450184501846,
+      "loss": 0.1915,
+      "step": 540
+    },
+    {
+      "epoch": 2.029520295202952,
+      "grad_norm": 0.14631719887256622,
+      "learning_rate": 0.00014926199261992623,
+      "loss": 0.2113,
+      "step": 550
+    },
+    {
+      "epoch": 2.066420664206642,
+      "grad_norm": 0.12011805921792984,
+      "learning_rate": 0.00014833948339483394,
+      "loss": 0.1781,
+      "step": 560
+    },
+    {
+      "epoch": 2.103321033210332,
+      "grad_norm": 0.14479252696037292,
+      "learning_rate": 0.00014741697416974169,
+      "loss": 0.182,
+      "step": 570
+    },
+    {
+      "epoch": 2.140221402214022,
+      "grad_norm": 0.18806347250938416,
+      "learning_rate": 0.00014649446494464946,
+      "loss": 0.1682,
+      "step": 580
+    },
+    {
+      "epoch": 2.177121771217712,
+      "grad_norm": 0.17025235295295715,
+      "learning_rate": 0.0001455719557195572,
+      "loss": 0.1824,
+      "step": 590
+    },
+    {
+      "epoch": 2.2140221402214024,
+      "grad_norm": 0.16879422962665558,
+      "learning_rate": 0.00014464944649446494,
+      "loss": 0.1942,
+      "step": 600
+    },
+    {
+      "epoch": 2.2140221402214024,
+      "eval_accuracy": 0.41965317919075146,
+      "eval_loss": 0.17699980735778809,
+      "eval_runtime": 50.0976,
+      "eval_samples_per_second": 34.533,
+      "eval_steps_per_second": 4.332,
+      "step": 600
+    },
+    {
+      "epoch": 2.2509225092250924,
+      "grad_norm": 0.168411523103714,
+      "learning_rate": 0.0001437269372693727,
+      "loss": 0.1732,
+      "step": 610
+    },
+    {
+      "epoch": 2.2878228782287824,
+      "grad_norm": 0.21096496284008026,
+      "learning_rate": 0.00014280442804428045,
+      "loss": 0.1842,
+      "step": 620
+    },
+    {
+      "epoch": 2.3247232472324724,
+      "grad_norm": 0.18110381066799164,
+      "learning_rate": 0.0001418819188191882,
+      "loss": 0.1772,
+      "step": 630
+    },
+    {
+      "epoch": 2.3616236162361623,
+      "grad_norm": 0.15854766964912415,
+      "learning_rate": 0.00014095940959409593,
+      "loss": 0.1709,
+      "step": 640
+    },
+    {
+      "epoch": 2.3985239852398523,
+      "grad_norm": 0.19320182502269745,
+      "learning_rate": 0.0001400369003690037,
+      "loss": 0.2,
+      "step": 650
+    },
+    {
+      "epoch": 2.4354243542435423,
+      "grad_norm": 0.16658619046211243,
+      "learning_rate": 0.00013911439114391145,
+      "loss": 0.2061,
+      "step": 660
+    },
+    {
+      "epoch": 2.4723247232472323,
+      "grad_norm": 0.14636483788490295,
+      "learning_rate": 0.0001381918819188192,
+      "loss": 0.1946,
+      "step": 670
+    },
+    {
+      "epoch": 2.5092250922509223,
+      "grad_norm": 0.1587982028722763,
+      "learning_rate": 0.00013726937269372696,
+      "loss": 0.1963,
+      "step": 680
+    },
+    {
+      "epoch": 2.5461254612546127,
+      "grad_norm": 0.2764102518558502,
+      "learning_rate": 0.0001363468634686347,
+      "loss": 0.1702,
+      "step": 690
+    },
+    {
+      "epoch": 2.5830258302583027,
+      "grad_norm": 0.14449751377105713,
+      "learning_rate": 0.00013542435424354244,
+      "loss": 0.1714,
+      "step": 700
+    },
+    {
+      "epoch": 2.5830258302583027,
+      "eval_accuracy": 0.5023121387283237,
+      "eval_loss": 0.17974236607551575,
+      "eval_runtime": 50.796,
+      "eval_samples_per_second": 34.058,
+      "eval_steps_per_second": 4.272,
+      "step": 700
+    },
+    {
+      "epoch": 2.6199261992619927,
+      "grad_norm": 0.15392902493476868,
+      "learning_rate": 0.0001345018450184502,
+      "loss": 0.191,
+      "step": 710
+    },
+    {
+      "epoch": 2.6568265682656826,
+      "grad_norm": 0.15529021620750427,
+      "learning_rate": 0.00013357933579335793,
+      "loss": 0.193,
+      "step": 720
+    },
+    {
+      "epoch": 2.6937269372693726,
+      "grad_norm": 0.18234789371490479,
+      "learning_rate": 0.00013265682656826567,
+      "loss": 0.1836,
+      "step": 730
+    },
+    {
+      "epoch": 2.7306273062730626,
+      "grad_norm": 0.19954174757003784,
+      "learning_rate": 0.00013173431734317344,
+      "loss": 0.2176,
+      "step": 740
+    },
+    {
+      "epoch": 2.767527675276753,
+      "grad_norm": 0.13893257081508636,
+      "learning_rate": 0.00013081180811808118,
+      "loss": 0.1699,
+      "step": 750
+    },
+    {
+      "epoch": 2.804428044280443,
+      "grad_norm": 0.16896647214889526,
+      "learning_rate": 0.00012988929889298892,
+      "loss": 0.168,
+      "step": 760
+    },
+    {
+      "epoch": 2.841328413284133,
+      "grad_norm": 0.20796014368534088,
+      "learning_rate": 0.0001289667896678967,
+      "loss": 0.2141,
+      "step": 770
+    },
+    {
+      "epoch": 2.878228782287823,
+      "grad_norm": 0.2690466046333313,
+      "learning_rate": 0.00012804428044280443,
+      "loss": 0.1778,
+      "step": 780
+    },
+    {
+      "epoch": 2.915129151291513,
+      "grad_norm": 0.14259500801563263,
+      "learning_rate": 0.00012712177121771217,
+      "loss": 0.1748,
+      "step": 790
+    },
+    {
+      "epoch": 2.952029520295203,
+      "grad_norm": 0.14488738775253296,
+      "learning_rate": 0.00012619926199261994,
+      "loss": 0.1832,
+      "step": 800
+    },
+    {
+      "epoch": 2.952029520295203,
+      "eval_accuracy": 0.36878612716763004,
+      "eval_loss": 0.17303667962551117,
+      "eval_runtime": 50.3505,
+      "eval_samples_per_second": 34.359,
+      "eval_steps_per_second": 4.31,
+      "step": 800
+    },
+    {
+      "epoch": 2.988929889298893,
+      "grad_norm": 0.1963815540075302,
+      "learning_rate": 0.00012527675276752769,
+      "loss": 0.1603,
+      "step": 810
+    },
+    {
+      "epoch": 3.025830258302583,
+      "grad_norm": 0.18811728060245514,
+      "learning_rate": 0.00012435424354243543,
+      "loss": 0.1668,
+      "step": 820
+    },
+    {
+      "epoch": 3.062730627306273,
+      "grad_norm": 0.3115330636501312,
+      "learning_rate": 0.0001234317343173432,
+      "loss": 0.1764,
+      "step": 830
+    },
+    {
+      "epoch": 3.0996309963099633,
+      "grad_norm": 0.15212470293045044,
+      "learning_rate": 0.00012250922509225094,
+      "loss": 0.1668,
+      "step": 840
+    },
+    {
+      "epoch": 3.1365313653136533,
+      "grad_norm": 0.17935976386070251,
+      "learning_rate": 0.00012158671586715868,
+      "loss": 0.1807,
+      "step": 850
+    },
+    {
+      "epoch": 3.1734317343173433,
+      "grad_norm": 0.23978868126869202,
+      "learning_rate": 0.00012066420664206644,
+      "loss": 0.168,
+      "step": 860
+    },
+    {
+      "epoch": 3.2103321033210332,
+      "grad_norm": 0.29603224992752075,
+      "learning_rate": 0.00011974169741697419,
+      "loss": 0.1827,
+      "step": 870
+    },
+    {
+      "epoch": 3.2472324723247232,
+      "grad_norm": 0.1385461539030075,
+      "learning_rate": 0.00011881918819188192,
+      "loss": 0.1794,
+      "step": 880
+    },
+    {
+      "epoch": 3.284132841328413,
+      "grad_norm": 0.20920993387699127,
+      "learning_rate": 0.00011789667896678966,
+      "loss": 0.1738,
+      "step": 890
+    },
+    {
+      "epoch": 3.321033210332103,
+      "grad_norm": 0.31590428948402405,
+      "learning_rate": 0.00011697416974169742,
+      "loss": 0.1766,
+      "step": 900
+    },
+    {
+      "epoch": 3.321033210332103,
+      "eval_accuracy": 0.34277456647398846,
+      "eval_loss": 0.17552779614925385,
+      "eval_runtime": 50.5381,
+      "eval_samples_per_second": 34.232,
+      "eval_steps_per_second": 4.294,
+      "step": 900
+    },
+    {
+      "epoch": 3.357933579335793,
+      "grad_norm": 0.22194945812225342,
+      "learning_rate": 0.00011605166051660516,
+      "loss": 0.1814,
+      "step": 910
+    },
+    {
+      "epoch": 3.3948339483394836,
+      "grad_norm": 0.22071777284145355,
+      "learning_rate": 0.00011512915129151292,
+      "loss": 0.1629,
+      "step": 920
+    },
+    {
+      "epoch": 3.4317343173431736,
+      "grad_norm": 0.44112759828567505,
+      "learning_rate": 0.00011420664206642067,
+      "loss": 0.1914,
+      "step": 930
+    },
+    {
+      "epoch": 3.4686346863468636,
+      "grad_norm": 0.20971660315990448,
+      "learning_rate": 0.00011328413284132841,
+      "loss": 0.1691,
+      "step": 940
+    },
+    {
+      "epoch": 3.5055350553505535,
+      "grad_norm": 0.23813588917255402,
+      "learning_rate": 0.00011236162361623617,
+      "loss": 0.1919,
+      "step": 950
+    },
+    {
+      "epoch": 3.5424354243542435,
+      "grad_norm": 0.19610780477523804,
+      "learning_rate": 0.00011143911439114391,
+      "loss": 0.1631,
+      "step": 960
+    },
+    {
+      "epoch": 3.5793357933579335,
+      "grad_norm": 0.29578620195388794,
+      "learning_rate": 0.00011051660516605167,
+      "loss": 0.1721,
+      "step": 970
+    },
+    {
+      "epoch": 3.6162361623616235,
+      "grad_norm": 0.15876761078834534,
+      "learning_rate": 0.00010959409594095942,
+      "loss": 0.1869,
+      "step": 980
+    },
+    {
+      "epoch": 3.6531365313653135,
+      "grad_norm": 0.19575054943561554,
+      "learning_rate": 0.00010867158671586716,
+      "loss": 0.1676,
+      "step": 990
+    },
+    {
+      "epoch": 3.6900369003690034,
+      "grad_norm": 0.12657958269119263,
+      "learning_rate": 0.00010774907749077492,
+      "loss": 0.1697,
+      "step": 1000
+    },
+    {
+      "epoch": 3.6900369003690034,
+      "eval_accuracy": 0.5167630057803468,
+      "eval_loss": 0.1601094752550125,
+      "eval_runtime": 50.1373,
+      "eval_samples_per_second": 34.505,
+      "eval_steps_per_second": 4.328,
+      "step": 1000
+    },
+    {
+      "epoch": 3.726937269372694,
+      "grad_norm": 0.2477671205997467,
+      "learning_rate": 0.00010682656826568268,
+      "loss": 0.1745,
+      "step": 1010
+    },
+    {
+      "epoch": 3.763837638376384,
+      "grad_norm": 0.21879136562347412,
+      "learning_rate": 0.00010590405904059042,
+      "loss": 0.1617,
+      "step": 1020
+    },
+    {
+      "epoch": 3.800738007380074,
+      "grad_norm": 0.195592001080513,
+      "learning_rate": 0.00010498154981549817,
+      "loss": 0.1534,
+      "step": 1030
+    },
+    {
+      "epoch": 3.837638376383764,
+      "grad_norm": 0.35998597741127014,
+      "learning_rate": 0.0001040590405904059,
+      "loss": 0.1606,
+      "step": 1040
+    },
+    {
+      "epoch": 3.874538745387454,
+      "grad_norm": 0.30765026807785034,
+      "learning_rate": 0.00010313653136531364,
+      "loss": 0.2019,
+      "step": 1050
+    },
+    {
+      "epoch": 3.911439114391144,
+      "grad_norm": 0.16130860149860382,
+      "learning_rate": 0.0001022140221402214,
+      "loss": 0.1738,
+      "step": 1060
+    },
+    {
+      "epoch": 3.948339483394834,
+      "grad_norm": 0.1843736171722412,
+      "learning_rate": 0.00010129151291512916,
+      "loss": 0.1941,
+      "step": 1070
+    },
+    {
+      "epoch": 3.985239852398524,
+      "grad_norm": 0.21090315282344818,
+      "learning_rate": 0.0001003690036900369,
+      "loss": 0.1695,
+      "step": 1080
+    },
+    {
+      "epoch": 4.022140221402214,
+      "grad_norm": 0.19030509889125824,
+      "learning_rate": 9.944649446494465e-05,
+      "loss": 0.1711,
+      "step": 1090
+    },
+    {
+      "epoch": 4.059040590405904,
+      "grad_norm": 0.12992843985557556,
+      "learning_rate": 9.85239852398524e-05,
+      "loss": 0.1568,
+      "step": 1100
+    },
+    {
+      "epoch": 4.059040590405904,
+      "eval_accuracy": 0.5352601156069364,
+      "eval_loss": 0.15768703818321228,
+      "eval_runtime": 50.6123,
+      "eval_samples_per_second": 34.181,
+      "eval_steps_per_second": 4.287,
+      "step": 1100
+    },
+    {
+      "epoch": 4.095940959409594,
+      "grad_norm": 0.23201997578144073,
+      "learning_rate": 9.760147601476015e-05,
+      "loss": 0.1484,
+      "step": 1110
+    },
+    {
+      "epoch": 4.132841328413284,
+      "grad_norm": 0.3783067762851715,
+      "learning_rate": 9.66789667896679e-05,
+      "loss": 0.1597,
+      "step": 1120
+    },
+    {
+      "epoch": 4.169741697416974,
+      "grad_norm": 0.27165931463241577,
+      "learning_rate": 9.575645756457565e-05,
+      "loss": 0.156,
+      "step": 1130
+    },
+    {
+      "epoch": 4.206642066420664,
+      "grad_norm": 0.2932455241680145,
+      "learning_rate": 9.48339483394834e-05,
+      "loss": 0.1353,
+      "step": 1140
+    },
+    {
+      "epoch": 4.243542435424354,
+      "grad_norm": 0.27856454253196716,
+      "learning_rate": 9.391143911439116e-05,
+      "loss": 0.1555,
+      "step": 1150
+    },
+    {
+      "epoch": 4.280442804428044,
+      "grad_norm": 0.2609305679798126,
+      "learning_rate": 9.298892988929889e-05,
+      "loss": 0.1549,
+      "step": 1160
+    },
+    {
+      "epoch": 4.317343173431734,
+      "grad_norm": 0.4013775587081909,
+      "learning_rate": 9.206642066420664e-05,
+      "loss": 0.1555,
+      "step": 1170
+    },
+    {
+      "epoch": 4.354243542435424,
+      "grad_norm": 0.24482858180999756,
+      "learning_rate": 9.11439114391144e-05,
+      "loss": 0.1583,
+      "step": 1180
+    },
+    {
+      "epoch": 4.391143911439114,
+      "grad_norm": 0.2422870397567749,
+      "learning_rate": 9.022140221402214e-05,
+      "loss": 0.1663,
+      "step": 1190
+    },
+    {
+      "epoch": 4.428044280442805,
+      "grad_norm": 0.2710004448890686,
+      "learning_rate": 8.92988929889299e-05,
+      "loss": 0.1484,
+      "step": 1200
+    },
+    {
+      "epoch": 4.428044280442805,
+      "eval_accuracy": 0.49190751445086706,
+      "eval_loss": 0.1513577699661255,
+      "eval_runtime": 50.7754,
+      "eval_samples_per_second": 34.072,
+      "eval_steps_per_second": 4.274,
+      "step": 1200
+    },
+    {
+      "epoch": 4.464944649446495,
+      "grad_norm": 0.3608151972293854,
+      "learning_rate": 8.837638376383764e-05,
+      "loss": 0.1595,
+      "step": 1210
+    },
+    {
+      "epoch": 4.501845018450185,
+      "grad_norm": 0.14578911662101746,
+      "learning_rate": 8.74538745387454e-05,
+      "loss": 0.1841,
+      "step": 1220
+    },
+    {
+      "epoch": 4.538745387453875,
+      "grad_norm": 0.2544012665748596,
+      "learning_rate": 8.653136531365315e-05,
+      "loss": 0.1576,
+      "step": 1230
+    },
+    {
+      "epoch": 4.575645756457565,
+      "grad_norm": 0.3130911886692047,
+      "learning_rate": 8.560885608856088e-05,
+      "loss": 0.1626,
+      "step": 1240
+    },
+    {
+      "epoch": 4.612546125461255,
+      "grad_norm": 0.31136009097099304,
+      "learning_rate": 8.468634686346863e-05,
+      "loss": 0.1715,
+      "step": 1250
+    },
+    {
+      "epoch": 4.649446494464945,
+      "grad_norm": 0.20172053575515747,
+      "learning_rate": 8.376383763837639e-05,
+      "loss": 0.1476,
+      "step": 1260
+    },
+    {
+      "epoch": 4.686346863468635,
+      "grad_norm": 0.2550618648529053,
+      "learning_rate": 8.284132841328413e-05,
+      "loss": 0.1376,
+      "step": 1270
+    },
+    {
+      "epoch": 4.723247232472325,
+      "grad_norm": 0.16149303317070007,
+      "learning_rate": 8.191881918819189e-05,
+      "loss": 0.1461,
+      "step": 1280
+    },
+    {
+      "epoch": 4.760147601476015,
+      "grad_norm": 0.27109894156455994,
+      "learning_rate": 8.099630996309964e-05,
+      "loss": 0.1556,
+      "step": 1290
+    },
+    {
+      "epoch": 4.797047970479705,
+      "grad_norm": 0.26436206698417664,
+      "learning_rate": 8.007380073800739e-05,
+      "loss": 0.1483,
+      "step": 1300
+    },
+    {
+      "epoch": 4.797047970479705,
+      "eval_accuracy": 0.5699421965317919,
+      "eval_loss": 0.14818404614925385,
+      "eval_runtime": 49.9368,
+      "eval_samples_per_second": 34.644,
+      "eval_steps_per_second": 4.345,
+      "step": 1300
+    },
+    {
+      "epoch": 4.833948339483395,
+      "grad_norm": 0.39457815885543823,
+      "learning_rate": 7.915129151291514e-05,
+      "loss": 0.1731,
+      "step": 1310
+    },
+    {
+      "epoch": 4.870848708487085,
+      "grad_norm": 0.1614658087491989,
+      "learning_rate": 7.822878228782288e-05,
+      "loss": 0.1525,
+      "step": 1320
+    },
+    {
+      "epoch": 4.907749077490775,
+      "grad_norm": 0.26091647148132324,
+      "learning_rate": 7.730627306273062e-05,
+      "loss": 0.1854,
+      "step": 1330
+    },
+    {
+      "epoch": 4.944649446494465,
+      "grad_norm": 0.33017560839653015,
+      "learning_rate": 7.638376383763838e-05,
+      "loss": 0.1695,
+      "step": 1340
+    },
+    {
+      "epoch": 4.9815498154981555,
+      "grad_norm": 0.3637866973876953,
+      "learning_rate": 7.546125461254612e-05,
+      "loss": 0.1666,
+      "step": 1350
+    },
+    {
+      "epoch": 5.018450184501845,
+      "grad_norm": 0.3373745083808899,
+      "learning_rate": 7.453874538745388e-05,
+      "loss": 0.1525,
+      "step": 1360
+    },
+    {
+      "epoch": 5.055350553505535,
+      "grad_norm": 0.25333917140960693,
+      "learning_rate": 7.361623616236163e-05,
+      "loss": 0.1356,
+      "step": 1370
+    },
+    {
+      "epoch": 5.092250922509225,
+      "grad_norm": 0.1722867488861084,
+      "learning_rate": 7.269372693726938e-05,
+      "loss": 0.1357,
+      "step": 1380
+    },
+    {
+      "epoch": 5.129151291512915,
+      "grad_norm": 0.13959679007530212,
+      "learning_rate": 7.177121771217713e-05,
+      "loss": 0.1285,
+      "step": 1390
+    },
+    {
+      "epoch": 5.166051660516605,
+      "grad_norm": 0.17668481171131134,
+      "learning_rate": 7.084870848708487e-05,
+      "loss": 0.1301,
+      "step": 1400
+    },
+    {
+      "epoch": 5.166051660516605,
+      "eval_accuracy": 0.5433526011560693,
+      "eval_loss": 0.13149897754192352,
+      "eval_runtime": 50.8795,
+      "eval_samples_per_second": 34.002,
+      "eval_steps_per_second": 4.265,
+      "step": 1400
+    },
+    {
+      "epoch": 5.202952029520295,
+      "grad_norm": 0.1745270937681198,
+      "learning_rate": 6.992619926199262e-05,
+      "loss": 0.1516,
+      "step": 1410
+    },
+    {
+      "epoch": 5.239852398523985,
+      "grad_norm": 0.5758349299430847,
+      "learning_rate": 6.900369003690037e-05,
+      "loss": 0.1294,
+      "step": 1420
+    },
+    {
+      "epoch": 5.276752767527675,
+      "grad_norm": 0.2458232194185257,
+      "learning_rate": 6.808118081180813e-05,
+      "loss": 0.1385,
+      "step": 1430
+    },
+    {
+      "epoch": 5.313653136531365,
+      "grad_norm": 0.3469581604003906,
+      "learning_rate": 6.715867158671587e-05,
+      "loss": 0.1394,
+      "step": 1440
+    },
+    {
+      "epoch": 5.350553505535055,
+      "grad_norm": 0.267447292804718,
+      "learning_rate": 6.623616236162362e-05,
+      "loss": 0.1432,
+      "step": 1450
+    },
+    {
+      "epoch": 5.387453874538745,
+      "grad_norm": 0.24406275153160095,
+      "learning_rate": 6.531365313653137e-05,
+      "loss": 0.1396,
+      "step": 1460
+    },
+    {
+      "epoch": 5.424354243542435,
+      "grad_norm": 0.7067885994911194,
+      "learning_rate": 6.439114391143912e-05,
+      "loss": 0.1456,
+      "step": 1470
+    },
+    {
+      "epoch": 5.461254612546125,
+      "grad_norm": 0.2915806174278259,
+      "learning_rate": 6.346863468634686e-05,
+      "loss": 0.1366,
+      "step": 1480
+    },
+    {
+      "epoch": 5.498154981549815,
+      "grad_norm": 0.22377534210681915,
+      "learning_rate": 6.25461254612546e-05,
+      "loss": 0.1273,
+      "step": 1490
+    },
+    {
+      "epoch": 5.535055350553505,
+      "grad_norm": 0.3705073893070221,
+      "learning_rate": 6.162361623616236e-05,
+      "loss": 0.1149,
+      "step": 1500
+    },
+    {
+      "epoch": 5.535055350553505,
+      "eval_accuracy": 0.5583815028901734,
+      "eval_loss": 0.12937474250793457,
+      "eval_runtime": 50.8394,
+      "eval_samples_per_second": 34.029,
+      "eval_steps_per_second": 4.268,
+      "step": 1500
+    },
+    {
+      "epoch": 5.571955719557195,
+      "grad_norm": 0.13345371186733246,
+      "learning_rate": 6.070110701107011e-05,
+      "loss": 0.1229,
+      "step": 1510
+    },
+    {
+      "epoch": 5.608856088560886,
+      "grad_norm": 0.4122871160507202,
+      "learning_rate": 5.9778597785977866e-05,
+      "loss": 0.1689,
+      "step": 1520
+    },
+    {
+      "epoch": 5.645756457564576,
+      "grad_norm": 0.14905782043933868,
+      "learning_rate": 5.8856088560885615e-05,
+      "loss": 0.1365,
+      "step": 1530
+    },
+    {
+      "epoch": 5.682656826568266,
+      "grad_norm": 0.21198387444019318,
+      "learning_rate": 5.7933579335793364e-05,
+      "loss": 0.1453,
+      "step": 1540
+    },
+    {
+      "epoch": 5.719557195571956,
+      "grad_norm": 0.3941808044910431,
+      "learning_rate": 5.701107011070111e-05,
+      "loss": 0.1584,
+      "step": 1550
+    },
+    {
+      "epoch": 5.756457564575646,
+      "grad_norm": 0.1366042047739029,
+      "learning_rate": 5.6088560885608855e-05,
+      "loss": 0.1219,
+      "step": 1560
+    },
+    {
+      "epoch": 5.793357933579336,
+      "grad_norm": 0.1590586006641388,
+      "learning_rate": 5.5166051660516604e-05,
+      "loss": 0.1482,
+      "step": 1570
+    },
+    {
+      "epoch": 5.830258302583026,
+      "grad_norm": 0.3574014902114868,
+      "learning_rate": 5.424354243542435e-05,
+      "loss": 0.1241,
+      "step": 1580
+    },
+    {
+      "epoch": 5.867158671586716,
+      "grad_norm": 0.2934325039386749,
+      "learning_rate": 5.332103321033211e-05,
+      "loss": 0.1397,
+      "step": 1590
+    },
+    {
+      "epoch": 5.904059040590406,
+      "grad_norm": 0.2349650263786316,
+      "learning_rate": 5.239852398523986e-05,
+      "loss": 0.1448,
+      "step": 1600
+    },
+    {
+      "epoch": 5.904059040590406,
+      "eval_accuracy": 0.5416184971098266,
+      "eval_loss": 0.12662799656391144,
+      "eval_runtime": 50.1064,
+      "eval_samples_per_second": 34.527,
+      "eval_steps_per_second": 4.331,
+      "step": 1600
+    },
+    {
+      "epoch": 5.940959409594096,
+      "grad_norm": 0.39207130670547485,
+      "learning_rate": 5.1476014760147606e-05,
+      "loss": 0.1491,
+      "step": 1610
+    },
+    {
+      "epoch": 5.977859778597786,
+      "grad_norm": 0.21359127759933472,
+      "learning_rate": 5.0553505535055354e-05,
+      "loss": 0.1367,
+      "step": 1620
+    },
+    {
+      "epoch": 6.014760147601476,
+      "grad_norm": 0.17874382436275482,
+      "learning_rate": 4.96309963099631e-05,
+      "loss": 0.1276,
+      "step": 1630
+    },
+    {
+      "epoch": 6.051660516605166,
+      "grad_norm": 0.15224817395210266,
+      "learning_rate": 4.870848708487085e-05,
+      "loss": 0.1223,
+      "step": 1640
+    },
+    {
+      "epoch": 6.088560885608856,
+      "grad_norm": 0.28657016158103943,
+      "learning_rate": 4.77859778597786e-05,
+      "loss": 0.1327,
+      "step": 1650
+    },
+    {
+      "epoch": 6.125461254612546,
+      "grad_norm": 0.16251201927661896,
+      "learning_rate": 4.686346863468635e-05,
+      "loss": 0.1318,
+      "step": 1660
+    },
+    {
+      "epoch": 6.162361623616236,
+      "grad_norm": 0.3002704381942749,
+      "learning_rate": 4.59409594095941e-05,
+      "loss": 0.1188,
+      "step": 1670
+    },
+    {
+      "epoch": 6.199261992619927,
+      "grad_norm": 0.4188823103904724,
+      "learning_rate": 4.501845018450185e-05,
+      "loss": 0.1004,
+      "step": 1680
+    },
+    {
+      "epoch": 6.236162361623617,
+      "grad_norm": 0.18772590160369873,
+      "learning_rate": 4.4095940959409596e-05,
+      "loss": 0.1002,
+      "step": 1690
+    },
+    {
+      "epoch": 6.273062730627307,
+      "grad_norm": 0.30921700596809387,
+      "learning_rate": 4.3173431734317345e-05,
+      "loss": 0.1035,
+      "step": 1700
+    },
+    {
+      "epoch": 6.273062730627307,
+      "eval_accuracy": 0.6017341040462427,
+      "eval_loss": 0.11507368832826614,
+      "eval_runtime": 50.6734,
+      "eval_samples_per_second": 34.14,
+      "eval_steps_per_second": 4.282,
+      "step": 1700
+    },
+    {
+      "epoch": 6.3099630996309966,
+      "grad_norm": 0.42562779784202576,
+      "learning_rate": 4.2250922509225094e-05,
+      "loss": 0.1071,
+      "step": 1710
+    },
+    {
+      "epoch": 6.3468634686346865,
+      "grad_norm": 0.36547404527664185,
+      "learning_rate": 4.132841328413284e-05,
+      "loss": 0.12,
+      "step": 1720
+    },
+    {
+      "epoch": 6.3837638376383765,
+      "grad_norm": 0.12006784975528717,
+      "learning_rate": 4.040590405904059e-05,
+      "loss": 0.1107,
+      "step": 1730
+    },
+    {
+      "epoch": 6.4206642066420665,
+      "grad_norm": 0.1983233392238617,
+      "learning_rate": 3.948339483394834e-05,
+      "loss": 0.1206,
+      "step": 1740
+    },
+    {
+      "epoch": 6.4575645756457565,
+      "grad_norm": 0.17691943049430847,
+      "learning_rate": 3.856088560885609e-05,
+      "loss": 0.1252,
+      "step": 1750
+    },
+    {
+      "epoch": 6.4944649446494465,
+      "grad_norm": 0.39386728405952454,
+      "learning_rate": 3.763837638376384e-05,
+      "loss": 0.1314,
+      "step": 1760
+    },
+    {
+      "epoch": 6.531365313653136,
+      "grad_norm": 0.607455313205719,
+      "learning_rate": 3.6715867158671594e-05,
+      "loss": 0.1095,
+      "step": 1770
+    },
+    {
+      "epoch": 6.568265682656826,
+      "grad_norm": 0.21057389676570892,
+      "learning_rate": 3.5793357933579336e-05,
+      "loss": 0.1223,
+      "step": 1780
+    },
+    {
+      "epoch": 6.605166051660516,
+      "grad_norm": 0.27539491653442383,
+      "learning_rate": 3.4870848708487085e-05,
+      "loss": 0.1163,
+      "step": 1790
+    },
+    {
+      "epoch": 6.642066420664206,
+      "grad_norm": 0.24495290219783783,
+      "learning_rate": 3.3948339483394833e-05,
+      "loss": 0.1048,
+      "step": 1800
+    },
+    {
+      "epoch": 6.642066420664206,
+      "eval_accuracy": 0.6046242774566474,
+      "eval_loss": 0.10599144548177719,
+      "eval_runtime": 50.9957,
+      "eval_samples_per_second": 33.924,
+      "eval_steps_per_second": 4.255,
+      "step": 1800
+    },
+    {
+      "epoch": 6.678966789667896,
+      "grad_norm": 0.38892611861228943,
+      "learning_rate": 3.302583025830259e-05,
+      "loss": 0.1352,
+      "step": 1810
+    },
+    {
+      "epoch": 6.715867158671586,
+      "grad_norm": 0.2850606143474579,
+      "learning_rate": 3.210332103321033e-05,
+      "loss": 0.1153,
+      "step": 1820
+    },
+    {
+      "epoch": 6.752767527675276,
+      "grad_norm": 0.16241934895515442,
+      "learning_rate": 3.118081180811808e-05,
+      "loss": 0.1074,
+      "step": 1830
+    },
+    {
+      "epoch": 6.789667896678967,
+      "grad_norm": 0.36088794469833374,
+      "learning_rate": 3.0258302583025832e-05,
+      "loss": 0.1219,
+      "step": 1840
+    },
+    {
+      "epoch": 6.826568265682657,
+      "grad_norm": 0.21467632055282593,
+      "learning_rate": 2.9335793357933584e-05,
+      "loss": 0.1083,
+      "step": 1850
+    },
+    {
+      "epoch": 6.863468634686347,
+      "grad_norm": 0.4730125069618225,
+      "learning_rate": 2.8413284132841326e-05,
+      "loss": 0.1227,
+      "step": 1860
+    },
+    {
+      "epoch": 6.900369003690037,
+      "grad_norm": 0.20842638611793518,
+      "learning_rate": 2.749077490774908e-05,
+      "loss": 0.128,
+      "step": 1870
+    },
+    {
+      "epoch": 6.937269372693727,
+      "grad_norm": 0.1885102540254593,
+      "learning_rate": 2.6568265682656828e-05,
+      "loss": 0.0923,
+      "step": 1880
+    },
+    {
+      "epoch": 6.974169741697417,
+      "grad_norm": 0.48948994278907776,
+      "learning_rate": 2.564575645756458e-05,
+      "loss": 0.1165,
+      "step": 1890
+    },
+    {
+      "epoch": 7.011070110701107,
+      "grad_norm": 0.4080180525779724,
+      "learning_rate": 2.472324723247233e-05,
+      "loss": 0.1168,
+      "step": 1900
+    },
+    {
+      "epoch": 7.011070110701107,
+      "eval_accuracy": 0.6173410404624278,
+      "eval_loss": 0.10073487460613251,
+      "eval_runtime": 50.8605,
+      "eval_samples_per_second": 34.015,
+      "eval_steps_per_second": 4.267,
+      "step": 1900
+    },
+    {
+      "epoch": 7.047970479704797,
+      "grad_norm": 0.19095434248447418,
+      "learning_rate": 2.3800738007380074e-05,
+      "loss": 0.1131,
+      "step": 1910
+    },
+    {
+      "epoch": 7.084870848708487,
+      "grad_norm": 0.23603685200214386,
+      "learning_rate": 2.2878228782287826e-05,
+      "loss": 0.089,
+      "step": 1920
+    },
+    {
+      "epoch": 7.121771217712177,
+      "grad_norm": 0.09547635912895203,
+      "learning_rate": 2.195571955719557e-05,
+      "loss": 0.1032,
+      "step": 1930
+    },
+    {
+      "epoch": 7.158671586715867,
+      "grad_norm": 0.18442951142787933,
+      "learning_rate": 2.1033210332103324e-05,
+      "loss": 0.0909,
+      "step": 1940
+    },
+    {
+      "epoch": 7.195571955719557,
+      "grad_norm": 0.2125350534915924,
+      "learning_rate": 2.011070110701107e-05,
+      "loss": 0.0922,
+      "step": 1950
+    },
+    {
+      "epoch": 7.232472324723247,
+      "grad_norm": 0.15140217542648315,
+      "learning_rate": 1.918819188191882e-05,
+      "loss": 0.1155,
+      "step": 1960
+    },
+    {
+      "epoch": 7.269372693726937,
+      "grad_norm": 0.25905662775039673,
+      "learning_rate": 1.826568265682657e-05,
+      "loss": 0.1194,
+      "step": 1970
+    },
+    {
+      "epoch": 7.306273062730627,
+      "grad_norm": 0.18217885494232178,
+      "learning_rate": 1.734317343173432e-05,
+      "loss": 0.1,
+      "step": 1980
+    },
+    {
+      "epoch": 7.343173431734318,
+      "grad_norm": 0.21871539950370789,
+      "learning_rate": 1.6420664206642068e-05,
+      "loss": 0.1022,
+      "step": 1990
+    },
+    {
+      "epoch": 7.380073800738008,
+      "grad_norm": 0.4127865731716156,
+      "learning_rate": 1.5498154981549817e-05,
+      "loss": 0.1104,
+      "step": 2000
+    },
+    {
+      "epoch": 7.380073800738008,
+      "eval_accuracy": 0.6445086705202312,
+      "eval_loss": 0.09489033371210098,
+      "eval_runtime": 50.8042,
+      "eval_samples_per_second": 34.052,
+      "eval_steps_per_second": 4.271,
+      "step": 2000
+    },
+    {
+      "epoch": 7.416974169741698,
+      "grad_norm": 0.20000500977039337,
+      "learning_rate": 1.4575645756457566e-05,
+      "loss": 0.1031,
+      "step": 2010
+    },
+    {
+      "epoch": 7.453874538745388,
+      "grad_norm": 0.5234202742576599,
+      "learning_rate": 1.3653136531365315e-05,
+      "loss": 0.1197,
+      "step": 2020
+    },
+    {
+      "epoch": 7.490774907749078,
+      "grad_norm": 0.16442282497882843,
+      "learning_rate": 1.2730627306273063e-05,
+      "loss": 0.1036,
+      "step": 2030
+    },
+    {
+      "epoch": 7.527675276752768,
+      "grad_norm": 0.19210496544837952,
+      "learning_rate": 1.1808118081180812e-05,
+      "loss": 0.0993,
+      "step": 2040
+    },
+    {
+      "epoch": 7.564575645756458,
+      "grad_norm": 0.1562729775905609,
+      "learning_rate": 1.0885608856088561e-05,
+      "loss": 0.0941,
+      "step": 2050
+    },
+    {
+      "epoch": 7.601476014760148,
+      "grad_norm": 0.29051193594932556,
+      "learning_rate": 9.96309963099631e-06,
+      "loss": 0.092,
+      "step": 2060
+    },
+    {
+      "epoch": 7.638376383763838,
+      "grad_norm": 0.21477282047271729,
+      "learning_rate": 9.040590405904059e-06,
+      "loss": 0.1123,
+      "step": 2070
+    },
+    {
+      "epoch": 7.675276752767528,
+      "grad_norm": 0.03506307676434517,
+      "learning_rate": 8.118081180811808e-06,
+      "loss": 0.0927,
+      "step": 2080
+    },
+    {
+      "epoch": 7.712177121771218,
+      "grad_norm": 0.21280255913734436,
+      "learning_rate": 7.195571955719557e-06,
+      "loss": 0.084,
+      "step": 2090
+    },
+    {
+      "epoch": 7.749077490774908,
+      "grad_norm": 0.19547449052333832,
+      "learning_rate": 6.273062730627306e-06,
+      "loss": 0.0873,
+      "step": 2100
+    },
+    {
+      "epoch": 7.749077490774908,
+      "eval_accuracy": 0.6526011560693642,
+      "eval_loss": 0.0923289805650711,
+      "eval_runtime": 50.6448,
+      "eval_samples_per_second": 34.159,
+      "eval_steps_per_second": 4.285,
+      "step": 2100
+    },
+    {
+      "epoch": 7.785977859778598,
+      "grad_norm": 0.22129392623901367,
+      "learning_rate": 5.350553505535055e-06,
+      "loss": 0.1,
+      "step": 2110
+    },
+    {
+      "epoch": 7.822878228782288,
+      "grad_norm": 0.2631789445877075,
+      "learning_rate": 4.428044280442805e-06,
+      "loss": 0.0811,
+      "step": 2120
+    },
+    {
+      "epoch": 7.8597785977859775,
+      "grad_norm": 0.16971804201602936,
+      "learning_rate": 3.5055350553505534e-06,
+      "loss": 0.0977,
+      "step": 2130
+    },
+    {
+      "epoch": 7.8966789667896675,
+      "grad_norm": 0.10247929394245148,
+      "learning_rate": 2.5830258302583027e-06,
+      "loss": 0.0966,
+      "step": 2140
+    },
+    {
+      "epoch": 7.9335793357933575,
+      "grad_norm": 0.15865936875343323,
+      "learning_rate": 1.6605166051660517e-06,
+      "loss": 0.1039,
+      "step": 2150
+    },
+    {
+      "epoch": 7.970479704797048,
+      "grad_norm": 0.506331205368042,
+      "learning_rate": 7.380073800738008e-07,
+      "loss": 0.0977,
+      "step": 2160
+    },
+    {
+      "epoch": 8.0,
+      "step": 2168,
+      "total_flos": 2.6821552511927255e+18,
+      "train_loss": 0.16216810325304962,
+      "train_runtime": 3143.5173,
+      "train_samples_per_second": 11.009,
+      "train_steps_per_second": 0.69
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2168,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.6821552511927255e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}