{
  "best_metric": 0.0923289805650711,
  "best_model_checkpoint": "./ViT-NIH-Chest-X-ray-dataset-small/checkpoint-2100",
  "epoch": 8.0,
  "eval_steps": 100,
  "global_step": 2168,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03690036900369004,
      "grad_norm": 0.38048115372657776,
      "learning_rate": 0.00019907749077490775,
      "loss": 0.5131,
      "step": 10
    },
    {
      "epoch": 0.07380073800738007,
      "grad_norm": 0.3416444957256317,
      "learning_rate": 0.00019815498154981552,
      "loss": 0.3661,
      "step": 20
    },
    {
      "epoch": 0.11070110701107011,
      "grad_norm": 0.268430233001709,
      "learning_rate": 0.00019723247232472326,
      "loss": 0.3122,
      "step": 30
    },
    {
      "epoch": 0.14760147601476015,
      "grad_norm": 0.20281535387039185,
      "learning_rate": 0.000196309963099631,
      "loss": 0.2862,
      "step": 40
    },
    {
      "epoch": 0.18450184501845018,
      "grad_norm": 0.17638804018497467,
      "learning_rate": 0.00019538745387453877,
      "loss": 0.2582,
      "step": 50
    },
    {
      "epoch": 0.22140221402214022,
      "grad_norm": 0.13983863592147827,
      "learning_rate": 0.00019446494464944652,
      "loss": 0.2621,
      "step": 60
    },
    {
      "epoch": 0.25830258302583026,
      "grad_norm": 0.1306193470954895,
      "learning_rate": 0.00019354243542435426,
      "loss": 0.2361,
      "step": 70
    },
    {
      "epoch": 0.2952029520295203,
      "grad_norm": 0.12178371101617813,
      "learning_rate": 0.000192619926199262,
      "loss": 0.2271,
      "step": 80
    },
    {
      "epoch": 0.33210332103321033,
      "grad_norm": 0.09625957161188126,
      "learning_rate": 0.00019169741697416974,
      "loss": 0.2275,
      "step": 90
    },
    {
      "epoch": 0.36900369003690037,
      "grad_norm": 0.12183211743831635,
      "learning_rate": 0.00019077490774907748,
      "loss": 0.2128,
      "step": 100
    },
    {
      "epoch": 0.36900369003690037,
      "eval_accuracy": 0.0,
      "eval_loss": 0.20924170315265656,
      "eval_runtime": 51.5235,
      "eval_samples_per_second": 33.577,
      "eval_steps_per_second": 4.212,
      "step": 100
    },
    {
      "epoch": 0.4059040590405904,
      "grad_norm": 0.08246201276779175,
      "learning_rate": 0.00018985239852398525,
      "loss": 0.2089,
      "step": 110
    },
    {
      "epoch": 0.44280442804428044,
      "grad_norm": 0.11126121133565903,
      "learning_rate": 0.000188929889298893,
      "loss": 0.2147,
      "step": 120
    },
    {
      "epoch": 0.4797047970479705,
      "grad_norm": 0.11177172511816025,
      "learning_rate": 0.00018800738007380074,
      "loss": 0.2044,
      "step": 130
    },
    {
      "epoch": 0.5166051660516605,
      "grad_norm": 0.10021921247243881,
      "learning_rate": 0.0001870848708487085,
      "loss": 0.1839,
      "step": 140
    },
    {
      "epoch": 0.5535055350553506,
      "grad_norm": 0.185609832406044,
      "learning_rate": 0.00018616236162361625,
      "loss": 0.2209,
      "step": 150
    },
    {
      "epoch": 0.5904059040590406,
      "grad_norm": 0.17880532145500183,
      "learning_rate": 0.000185239852398524,
      "loss": 0.2023,
      "step": 160
    },
    {
      "epoch": 0.6273062730627307,
      "grad_norm": 0.09112340211868286,
      "learning_rate": 0.00018431734317343173,
      "loss": 0.1952,
      "step": 170
    },
    {
      "epoch": 0.6642066420664207,
      "grad_norm": 0.14496631920337677,
      "learning_rate": 0.0001833948339483395,
      "loss": 0.2154,
      "step": 180
    },
    {
      "epoch": 0.7011070110701108,
      "grad_norm": 0.1129971593618393,
      "learning_rate": 0.00018247232472324724,
      "loss": 0.1865,
      "step": 190
    },
    {
      "epoch": 0.7380073800738007,
      "grad_norm": 0.1439884454011917,
      "learning_rate": 0.00018154981549815499,
      "loss": 0.1848,
      "step": 200
    },
    {
      "epoch": 0.7380073800738007,
      "eval_accuracy": 0.38208092485549133,
      "eval_loss": 0.1909271478652954,
      "eval_runtime": 51.554,
      "eval_samples_per_second": 33.557,
      "eval_steps_per_second": 4.209,
      "step": 200
    },
    {
      "epoch": 0.7749077490774908,
      "grad_norm": 0.1933569312095642,
      "learning_rate": 0.00018062730627306276,
      "loss": 0.1921,
      "step": 210
    },
    {
      "epoch": 0.8118081180811808,
      "grad_norm": 0.19441623985767365,
      "learning_rate": 0.0001797047970479705,
      "loss": 0.2087,
      "step": 220
    },
    {
      "epoch": 0.8487084870848709,
      "grad_norm": 0.10429559648036957,
      "learning_rate": 0.00017878228782287824,
      "loss": 0.2016,
      "step": 230
    },
    {
      "epoch": 0.8856088560885609,
      "grad_norm": 0.11976602673530579,
      "learning_rate": 0.00017785977859778598,
      "loss": 0.1871,
      "step": 240
    },
    {
      "epoch": 0.922509225092251,
      "grad_norm": 0.13647252321243286,
      "learning_rate": 0.00017693726937269372,
      "loss": 0.1951,
      "step": 250
    },
    {
      "epoch": 0.959409594095941,
      "grad_norm": 0.13491246104240417,
      "learning_rate": 0.00017601476014760147,
      "loss": 0.1987,
      "step": 260
    },
    {
      "epoch": 0.996309963099631,
      "grad_norm": 0.10877779126167297,
      "learning_rate": 0.00017509225092250923,
      "loss": 0.2067,
      "step": 270
    },
    {
      "epoch": 1.033210332103321,
      "grad_norm": 0.10195717215538025,
      "learning_rate": 0.00017416974169741698,
      "loss": 0.1829,
      "step": 280
    },
    {
      "epoch": 1.070110701107011,
      "grad_norm": 0.11287475377321243,
      "learning_rate": 0.00017324723247232472,
      "loss": 0.1771,
      "step": 290
    },
    {
      "epoch": 1.1070110701107012,
      "grad_norm": 0.10177090764045715,
      "learning_rate": 0.0001723247232472325,
      "loss": 0.171,
      "step": 300
    },
    {
      "epoch": 1.1070110701107012,
      "eval_accuracy": 0.5387283236994219,
      "eval_loss": 0.1967419981956482,
      "eval_runtime": 50.6773,
      "eval_samples_per_second": 34.138,
      "eval_steps_per_second": 4.282,
      "step": 300
    },
    {
      "epoch": 1.1439114391143912,
      "grad_norm": 0.14216077327728271,
      "learning_rate": 0.00017140221402214023,
      "loss": 0.2104,
      "step": 310
    },
    {
      "epoch": 1.1808118081180812,
      "grad_norm": 0.0753447487950325,
      "learning_rate": 0.00017047970479704797,
      "loss": 0.201,
      "step": 320
    },
    {
      "epoch": 1.2177121771217712,
      "grad_norm": 0.13927125930786133,
      "learning_rate": 0.00016955719557195574,
      "loss": 0.1923,
      "step": 330
    },
    {
      "epoch": 1.2546125461254611,
      "grad_norm": 0.14396004378795624,
      "learning_rate": 0.00016863468634686348,
      "loss": 0.1996,
      "step": 340
    },
    {
      "epoch": 1.2915129151291513,
      "grad_norm": 0.09631673246622086,
      "learning_rate": 0.00016771217712177123,
      "loss": 0.1672,
      "step": 350
    },
    {
      "epoch": 1.3284132841328413,
      "grad_norm": 0.1342993974685669,
      "learning_rate": 0.00016678966789667897,
      "loss": 0.1792,
      "step": 360
    },
    {
      "epoch": 1.3653136531365313,
      "grad_norm": 0.20273268222808838,
      "learning_rate": 0.00016586715867158674,
      "loss": 0.1753,
      "step": 370
    },
    {
      "epoch": 1.4022140221402215,
      "grad_norm": 0.1452128291130066,
      "learning_rate": 0.00016494464944649448,
      "loss": 0.1801,
      "step": 380
    },
    {
      "epoch": 1.4391143911439115,
      "grad_norm": 0.0973893478512764,
      "learning_rate": 0.00016402214022140222,
      "loss": 0.2136,
      "step": 390
    },
    {
      "epoch": 1.4760147601476015,
      "grad_norm": 0.2589876651763916,
      "learning_rate": 0.00016309963099630996,
      "loss": 0.1772,
      "step": 400
    },
    {
      "epoch": 1.4760147601476015,
      "eval_accuracy": 0.5450867052023122,
      "eval_loss": 0.19317613542079926,
      "eval_runtime": 50.5026,
      "eval_samples_per_second": 34.256,
      "eval_steps_per_second": 4.297,
      "step": 400
    },
    {
      "epoch": 1.5129151291512914,
      "grad_norm": 0.16841156780719757,
      "learning_rate": 0.0001621771217712177,
      "loss": 0.1894,
      "step": 410
    },
    {
      "epoch": 1.5498154981549814,
      "grad_norm": 0.17766626179218292,
      "learning_rate": 0.00016125461254612547,
      "loss": 0.204,
      "step": 420
    },
    {
      "epoch": 1.5867158671586716,
      "grad_norm": 0.13253839313983917,
      "learning_rate": 0.00016033210332103322,
      "loss": 0.2141,
      "step": 430
    },
    {
      "epoch": 1.6236162361623616,
      "grad_norm": 0.10587523877620697,
      "learning_rate": 0.00015940959409594096,
      "loss": 0.2192,
      "step": 440
    },
    {
      "epoch": 1.6605166051660518,
      "grad_norm": 0.10049675405025482,
      "learning_rate": 0.0001584870848708487,
      "loss": 0.1939,
      "step": 450
    },
    {
      "epoch": 1.6974169741697418,
      "grad_norm": 0.1287400722503662,
      "learning_rate": 0.00015756457564575647,
      "loss": 0.1955,
      "step": 460
    },
    {
      "epoch": 1.7343173431734318,
      "grad_norm": 0.15120339393615723,
      "learning_rate": 0.0001566420664206642,
      "loss": 0.1863,
      "step": 470
    },
    {
      "epoch": 1.7712177121771218,
      "grad_norm": 0.1202373206615448,
      "learning_rate": 0.00015571955719557195,
      "loss": 0.1832,
      "step": 480
    },
    {
      "epoch": 1.8081180811808117,
      "grad_norm": 0.1368759572505951,
      "learning_rate": 0.00015479704797047972,
      "loss": 0.2007,
      "step": 490
    },
    {
      "epoch": 1.8450184501845017,
      "grad_norm": 0.08591968566179276,
      "learning_rate": 0.00015387453874538746,
      "loss": 0.1629,
      "step": 500
    },
    {
      "epoch": 1.8450184501845017,
      "eval_accuracy": 0.4485549132947977,
      "eval_loss": 0.1842162311077118,
      "eval_runtime": 50.5861,
      "eval_samples_per_second": 34.199,
      "eval_steps_per_second": 4.29,
      "step": 500
    },
    {
      "epoch": 1.881918819188192,
      "grad_norm": 0.12317466735839844,
      "learning_rate": 0.0001529520295202952,
      "loss": 0.213,
      "step": 510
    },
    {
      "epoch": 1.918819188191882,
      "grad_norm": 0.15092293918132782,
      "learning_rate": 0.00015202952029520298,
      "loss": 0.2004,
      "step": 520
    },
    {
      "epoch": 1.9557195571955721,
      "grad_norm": 0.20343895256519318,
      "learning_rate": 0.00015110701107011072,
      "loss": 0.1835,
      "step": 530
    },
    {
      "epoch": 1.992619926199262,
      "grad_norm": 0.32362422347068787,
      "learning_rate": 0.00015018450184501846,
      "loss": 0.1915,
      "step": 540
    },
    {
      "epoch": 2.029520295202952,
      "grad_norm": 0.14631719887256622,
      "learning_rate": 0.00014926199261992623,
      "loss": 0.2113,
      "step": 550
    },
    {
      "epoch": 2.066420664206642,
      "grad_norm": 0.12011805921792984,
      "learning_rate": 0.00014833948339483394,
      "loss": 0.1781,
      "step": 560
    },
    {
      "epoch": 2.103321033210332,
      "grad_norm": 0.14479252696037292,
      "learning_rate": 0.00014741697416974169,
      "loss": 0.182,
      "step": 570
    },
    {
      "epoch": 2.140221402214022,
      "grad_norm": 0.18806347250938416,
      "learning_rate": 0.00014649446494464946,
      "loss": 0.1682,
      "step": 580
    },
    {
      "epoch": 2.177121771217712,
      "grad_norm": 0.17025235295295715,
      "learning_rate": 0.0001455719557195572,
      "loss": 0.1824,
      "step": 590
    },
    {
      "epoch": 2.2140221402214024,
      "grad_norm": 0.16879422962665558,
      "learning_rate": 0.00014464944649446494,
      "loss": 0.1942,
      "step": 600
    },
    {
      "epoch": 2.2140221402214024,
      "eval_accuracy": 0.41965317919075146,
      "eval_loss": 0.17699980735778809,
      "eval_runtime": 50.0976,
      "eval_samples_per_second": 34.533,
      "eval_steps_per_second": 4.332,
      "step": 600
    },
    {
      "epoch": 2.2509225092250924,
      "grad_norm": 0.168411523103714,
      "learning_rate": 0.0001437269372693727,
      "loss": 0.1732,
      "step": 610
    },
    {
      "epoch": 2.2878228782287824,
      "grad_norm": 0.21096496284008026,
      "learning_rate": 0.00014280442804428045,
      "loss": 0.1842,
      "step": 620
    },
    {
      "epoch": 2.3247232472324724,
      "grad_norm": 0.18110381066799164,
      "learning_rate": 0.0001418819188191882,
      "loss": 0.1772,
      "step": 630
    },
    {
      "epoch": 2.3616236162361623,
      "grad_norm": 0.15854766964912415,
      "learning_rate": 0.00014095940959409593,
      "loss": 0.1709,
      "step": 640
    },
    {
      "epoch": 2.3985239852398523,
      "grad_norm": 0.19320182502269745,
      "learning_rate": 0.0001400369003690037,
      "loss": 0.2,
      "step": 650
    },
    {
      "epoch": 2.4354243542435423,
      "grad_norm": 0.16658619046211243,
      "learning_rate": 0.00013911439114391145,
      "loss": 0.2061,
      "step": 660
    },
    {
      "epoch": 2.4723247232472323,
      "grad_norm": 0.14636483788490295,
      "learning_rate": 0.0001381918819188192,
      "loss": 0.1946,
      "step": 670
    },
    {
      "epoch": 2.5092250922509223,
      "grad_norm": 0.1587982028722763,
      "learning_rate": 0.00013726937269372696,
      "loss": 0.1963,
      "step": 680
    },
    {
      "epoch": 2.5461254612546127,
      "grad_norm": 0.2764102518558502,
      "learning_rate": 0.0001363468634686347,
      "loss": 0.1702,
      "step": 690
    },
    {
      "epoch": 2.5830258302583027,
      "grad_norm": 0.14449751377105713,
      "learning_rate": 0.00013542435424354244,
      "loss": 0.1714,
      "step": 700
    },
    {
      "epoch": 2.5830258302583027,
      "eval_accuracy": 0.5023121387283237,
      "eval_loss": 0.17974236607551575,
      "eval_runtime": 50.796,
      "eval_samples_per_second": 34.058,
      "eval_steps_per_second": 4.272,
      "step": 700
    },
    {
      "epoch": 2.6199261992619927,
      "grad_norm": 0.15392902493476868,
      "learning_rate": 0.0001345018450184502,
      "loss": 0.191,
      "step": 710
    },
    {
      "epoch": 2.6568265682656826,
      "grad_norm": 0.15529021620750427,
      "learning_rate": 0.00013357933579335793,
      "loss": 0.193,
      "step": 720
    },
    {
      "epoch": 2.6937269372693726,
      "grad_norm": 0.18234789371490479,
      "learning_rate": 0.00013265682656826567,
      "loss": 0.1836,
      "step": 730
    },
    {
      "epoch": 2.7306273062730626,
      "grad_norm": 0.19954174757003784,
      "learning_rate": 0.00013173431734317344,
      "loss": 0.2176,
      "step": 740
    },
    {
      "epoch": 2.767527675276753,
      "grad_norm": 0.13893257081508636,
      "learning_rate": 0.00013081180811808118,
      "loss": 0.1699,
      "step": 750
    },
    {
      "epoch": 2.804428044280443,
      "grad_norm": 0.16896647214889526,
      "learning_rate": 0.00012988929889298892,
      "loss": 0.168,
      "step": 760
    },
    {
      "epoch": 2.841328413284133,
      "grad_norm": 0.20796014368534088,
      "learning_rate": 0.0001289667896678967,
      "loss": 0.2141,
      "step": 770
    },
    {
      "epoch": 2.878228782287823,
      "grad_norm": 0.2690466046333313,
      "learning_rate": 0.00012804428044280443,
      "loss": 0.1778,
      "step": 780
    },
    {
      "epoch": 2.915129151291513,
      "grad_norm": 0.14259500801563263,
      "learning_rate": 0.00012712177121771217,
      "loss": 0.1748,
      "step": 790
    },
    {
      "epoch": 2.952029520295203,
      "grad_norm": 0.14488738775253296,
      "learning_rate": 0.00012619926199261994,
      "loss": 0.1832,
      "step": 800
    },
    {
      "epoch": 2.952029520295203,
      "eval_accuracy": 0.36878612716763004,
      "eval_loss": 0.17303667962551117,
      "eval_runtime": 50.3505,
      "eval_samples_per_second": 34.359,
      "eval_steps_per_second": 4.31,
      "step": 800
    },
    {
      "epoch": 2.988929889298893,
      "grad_norm": 0.1963815540075302,
      "learning_rate": 0.00012527675276752769,
      "loss": 0.1603,
      "step": 810
    },
    {
      "epoch": 3.025830258302583,
      "grad_norm": 0.18811728060245514,
      "learning_rate": 0.00012435424354243543,
      "loss": 0.1668,
      "step": 820
    },
    {
      "epoch": 3.062730627306273,
      "grad_norm": 0.3115330636501312,
      "learning_rate": 0.0001234317343173432,
      "loss": 0.1764,
      "step": 830
    },
    {
      "epoch": 3.0996309963099633,
      "grad_norm": 0.15212470293045044,
      "learning_rate": 0.00012250922509225094,
      "loss": 0.1668,
      "step": 840
    },
    {
      "epoch": 3.1365313653136533,
      "grad_norm": 0.17935976386070251,
      "learning_rate": 0.00012158671586715868,
      "loss": 0.1807,
      "step": 850
    },
    {
      "epoch": 3.1734317343173433,
      "grad_norm": 0.23978868126869202,
      "learning_rate": 0.00012066420664206644,
      "loss": 0.168,
      "step": 860
    },
    {
      "epoch": 3.2103321033210332,
      "grad_norm": 0.29603224992752075,
      "learning_rate": 0.00011974169741697419,
      "loss": 0.1827,
      "step": 870
    },
    {
      "epoch": 3.2472324723247232,
      "grad_norm": 0.1385461539030075,
      "learning_rate": 0.00011881918819188192,
      "loss": 0.1794,
      "step": 880
    },
    {
      "epoch": 3.284132841328413,
      "grad_norm": 0.20920993387699127,
      "learning_rate": 0.00011789667896678966,
      "loss": 0.1738,
      "step": 890
    },
    {
      "epoch": 3.321033210332103,
      "grad_norm": 0.31590428948402405,
      "learning_rate": 0.00011697416974169742,
      "loss": 0.1766,
      "step": 900
    },
    {
      "epoch": 3.321033210332103,
      "eval_accuracy": 0.34277456647398846,
      "eval_loss": 0.17552779614925385,
      "eval_runtime": 50.5381,
      "eval_samples_per_second": 34.232,
      "eval_steps_per_second": 4.294,
      "step": 900
    },
    {
      "epoch": 3.357933579335793,
      "grad_norm": 0.22194945812225342,
      "learning_rate": 0.00011605166051660516,
      "loss": 0.1814,
      "step": 910
    },
    {
      "epoch": 3.3948339483394836,
      "grad_norm": 0.22071777284145355,
      "learning_rate": 0.00011512915129151292,
      "loss": 0.1629,
      "step": 920
    },
    {
      "epoch": 3.4317343173431736,
      "grad_norm": 0.44112759828567505,
      "learning_rate": 0.00011420664206642067,
      "loss": 0.1914,
      "step": 930
    },
    {
      "epoch": 3.4686346863468636,
      "grad_norm": 0.20971660315990448,
      "learning_rate": 0.00011328413284132841,
      "loss": 0.1691,
      "step": 940
    },
    {
      "epoch": 3.5055350553505535,
      "grad_norm": 0.23813588917255402,
      "learning_rate": 0.00011236162361623617,
      "loss": 0.1919,
      "step": 950
    },
    {
      "epoch": 3.5424354243542435,
      "grad_norm": 0.19610780477523804,
      "learning_rate": 0.00011143911439114391,
      "loss": 0.1631,
      "step": 960
    },
    {
      "epoch": 3.5793357933579335,
      "grad_norm": 0.29578620195388794,
      "learning_rate": 0.00011051660516605167,
      "loss": 0.1721,
      "step": 970
    },
    {
      "epoch": 3.6162361623616235,
      "grad_norm": 0.15876761078834534,
      "learning_rate": 0.00010959409594095942,
      "loss": 0.1869,
      "step": 980
    },
    {
      "epoch": 3.6531365313653135,
      "grad_norm": 0.19575054943561554,
      "learning_rate": 0.00010867158671586716,
      "loss": 0.1676,
      "step": 990
    },
    {
      "epoch": 3.6900369003690034,
      "grad_norm": 0.12657958269119263,
      "learning_rate": 0.00010774907749077492,
      "loss": 0.1697,
      "step": 1000
    },
    {
      "epoch": 3.6900369003690034,
      "eval_accuracy": 0.5167630057803468,
      "eval_loss": 0.1601094752550125,
      "eval_runtime": 50.1373,
      "eval_samples_per_second": 34.505,
      "eval_steps_per_second": 4.328,
      "step": 1000
    },
    {
      "epoch": 3.726937269372694,
      "grad_norm": 0.2477671205997467,
      "learning_rate": 0.00010682656826568268,
      "loss": 0.1745,
      "step": 1010
    },
    {
      "epoch": 3.763837638376384,
      "grad_norm": 0.21879136562347412,
      "learning_rate": 0.00010590405904059042,
      "loss": 0.1617,
      "step": 1020
    },
    {
      "epoch": 3.800738007380074,
      "grad_norm": 0.195592001080513,
      "learning_rate": 0.00010498154981549817,
      "loss": 0.1534,
      "step": 1030
    },
    {
      "epoch": 3.837638376383764,
      "grad_norm": 0.35998597741127014,
      "learning_rate": 0.0001040590405904059,
      "loss": 0.1606,
      "step": 1040
    },
    {
      "epoch": 3.874538745387454,
      "grad_norm": 0.30765026807785034,
      "learning_rate": 0.00010313653136531364,
      "loss": 0.2019,
      "step": 1050
    },
    {
      "epoch": 3.911439114391144,
      "grad_norm": 0.16130860149860382,
      "learning_rate": 0.0001022140221402214,
      "loss": 0.1738,
      "step": 1060
    },
    {
      "epoch": 3.948339483394834,
      "grad_norm": 0.1843736171722412,
      "learning_rate": 0.00010129151291512916,
      "loss": 0.1941,
      "step": 1070
    },
    {
      "epoch": 3.985239852398524,
      "grad_norm": 0.21090315282344818,
      "learning_rate": 0.0001003690036900369,
      "loss": 0.1695,
      "step": 1080
    },
    {
      "epoch": 4.022140221402214,
      "grad_norm": 0.19030509889125824,
      "learning_rate": 9.944649446494465e-05,
      "loss": 0.1711,
      "step": 1090
    },
    {
      "epoch": 4.059040590405904,
      "grad_norm": 0.12992843985557556,
      "learning_rate": 9.85239852398524e-05,
      "loss": 0.1568,
      "step": 1100
    },
    {
      "epoch": 4.059040590405904,
      "eval_accuracy": 0.5352601156069364,
      "eval_loss": 0.15768703818321228,
      "eval_runtime": 50.6123,
      "eval_samples_per_second": 34.181,
      "eval_steps_per_second": 4.287,
      "step": 1100
    },
    {
      "epoch": 4.095940959409594,
      "grad_norm": 0.23201997578144073,
      "learning_rate": 9.760147601476015e-05,
      "loss": 0.1484,
      "step": 1110
    },
    {
      "epoch": 4.132841328413284,
      "grad_norm": 0.3783067762851715,
      "learning_rate": 9.66789667896679e-05,
      "loss": 0.1597,
      "step": 1120
    },
    {
      "epoch": 4.169741697416974,
      "grad_norm": 0.27165931463241577,
      "learning_rate": 9.575645756457565e-05,
      "loss": 0.156,
      "step": 1130
    },
    {
      "epoch": 4.206642066420664,
      "grad_norm": 0.2932455241680145,
      "learning_rate": 9.48339483394834e-05,
      "loss": 0.1353,
      "step": 1140
    },
    {
      "epoch": 4.243542435424354,
      "grad_norm": 0.27856454253196716,
      "learning_rate": 9.391143911439116e-05,
      "loss": 0.1555,
      "step": 1150
    },
    {
      "epoch": 4.280442804428044,
      "grad_norm": 0.2609305679798126,
      "learning_rate": 9.298892988929889e-05,
      "loss": 0.1549,
      "step": 1160
    },
    {
      "epoch": 4.317343173431734,
      "grad_norm": 0.4013775587081909,
      "learning_rate": 9.206642066420664e-05,
      "loss": 0.1555,
      "step": 1170
    },
    {
      "epoch": 4.354243542435424,
      "grad_norm": 0.24482858180999756,
      "learning_rate": 9.11439114391144e-05,
      "loss": 0.1583,
      "step": 1180
    },
    {
      "epoch": 4.391143911439114,
      "grad_norm": 0.2422870397567749,
      "learning_rate": 9.022140221402214e-05,
      "loss": 0.1663,
      "step": 1190
    },
    {
      "epoch": 4.428044280442805,
      "grad_norm": 0.2710004448890686,
      "learning_rate": 8.92988929889299e-05,
      "loss": 0.1484,
      "step": 1200
    },
    {
      "epoch": 4.428044280442805,
      "eval_accuracy": 0.49190751445086706,
      "eval_loss": 0.1513577699661255,
      "eval_runtime": 50.7754,
      "eval_samples_per_second": 34.072,
      "eval_steps_per_second": 4.274,
      "step": 1200
    },
    {
      "epoch": 4.464944649446495,
      "grad_norm": 0.3608151972293854,
      "learning_rate": 8.837638376383764e-05,
      "loss": 0.1595,
      "step": 1210
    },
    {
      "epoch": 4.501845018450185,
      "grad_norm": 0.14578911662101746,
      "learning_rate": 8.74538745387454e-05,
      "loss": 0.1841,
      "step": 1220
    },
    {
      "epoch": 4.538745387453875,
      "grad_norm": 0.2544012665748596,
      "learning_rate": 8.653136531365315e-05,
      "loss": 0.1576,
      "step": 1230
    },
    {
      "epoch": 4.575645756457565,
      "grad_norm": 0.3130911886692047,
      "learning_rate": 8.560885608856088e-05,
      "loss": 0.1626,
      "step": 1240
    },
    {
      "epoch": 4.612546125461255,
      "grad_norm": 0.31136009097099304,
      "learning_rate": 8.468634686346863e-05,
      "loss": 0.1715,
      "step": 1250
    },
    {
      "epoch": 4.649446494464945,
      "grad_norm": 0.20172053575515747,
      "learning_rate": 8.376383763837639e-05,
      "loss": 0.1476,
      "step": 1260
    },
    {
      "epoch": 4.686346863468635,
      "grad_norm": 0.2550618648529053,
      "learning_rate": 8.284132841328413e-05,
      "loss": 0.1376,
      "step": 1270
    },
    {
      "epoch": 4.723247232472325,
      "grad_norm": 0.16149303317070007,
      "learning_rate": 8.191881918819189e-05,
      "loss": 0.1461,
      "step": 1280
    },
    {
      "epoch": 4.760147601476015,
      "grad_norm": 0.27109894156455994,
      "learning_rate": 8.099630996309964e-05,
      "loss": 0.1556,
      "step": 1290
    },
    {
      "epoch": 4.797047970479705,
      "grad_norm": 0.26436206698417664,
      "learning_rate": 8.007380073800739e-05,
      "loss": 0.1483,
      "step": 1300
    },
    {
      "epoch": 4.797047970479705,
      "eval_accuracy": 0.5699421965317919,
      "eval_loss": 0.14818404614925385,
      "eval_runtime": 49.9368,
      "eval_samples_per_second": 34.644,
      "eval_steps_per_second": 4.345,
      "step": 1300
    },
    {
      "epoch": 4.833948339483395,
      "grad_norm": 0.39457815885543823,
      "learning_rate": 7.915129151291514e-05,
      "loss": 0.1731,
      "step": 1310
    },
    {
      "epoch": 4.870848708487085,
      "grad_norm": 0.1614658087491989,
      "learning_rate": 7.822878228782288e-05,
      "loss": 0.1525,
      "step": 1320
    },
    {
      "epoch": 4.907749077490775,
      "grad_norm": 0.26091647148132324,
      "learning_rate": 7.730627306273062e-05,
      "loss": 0.1854,
      "step": 1330
    },
    {
      "epoch": 4.944649446494465,
      "grad_norm": 0.33017560839653015,
      "learning_rate": 7.638376383763838e-05,
      "loss": 0.1695,
      "step": 1340
    },
    {
      "epoch": 4.9815498154981555,
      "grad_norm": 0.3637866973876953,
      "learning_rate": 7.546125461254612e-05,
      "loss": 0.1666,
      "step": 1350
    },
    {
      "epoch": 5.018450184501845,
      "grad_norm": 0.3373745083808899,
      "learning_rate": 7.453874538745388e-05,
      "loss": 0.1525,
      "step": 1360
    },
    {
      "epoch": 5.055350553505535,
      "grad_norm": 0.25333917140960693,
      "learning_rate": 7.361623616236163e-05,
      "loss": 0.1356,
      "step": 1370
    },
    {
      "epoch": 5.092250922509225,
      "grad_norm": 0.1722867488861084,
      "learning_rate": 7.269372693726938e-05,
      "loss": 0.1357,
      "step": 1380
    },
    {
      "epoch": 5.129151291512915,
      "grad_norm": 0.13959679007530212,
      "learning_rate": 7.177121771217713e-05,
      "loss": 0.1285,
      "step": 1390
    },
    {
      "epoch": 5.166051660516605,
      "grad_norm": 0.17668481171131134,
      "learning_rate": 7.084870848708487e-05,
      "loss": 0.1301,
      "step": 1400
    },
    {
      "epoch": 5.166051660516605,
      "eval_accuracy": 0.5433526011560693,
      "eval_loss": 0.13149897754192352,
      "eval_runtime": 50.8795,
      "eval_samples_per_second": 34.002,
      "eval_steps_per_second": 4.265,
      "step": 1400
    },
    {
      "epoch": 5.202952029520295,
      "grad_norm": 0.1745270937681198,
      "learning_rate": 6.992619926199262e-05,
      "loss": 0.1516,
      "step": 1410
    },
    {
      "epoch": 5.239852398523985,
      "grad_norm": 0.5758349299430847,
      "learning_rate": 6.900369003690037e-05,
      "loss": 0.1294,
      "step": 1420
    },
    {
      "epoch": 5.276752767527675,
      "grad_norm": 0.2458232194185257,
      "learning_rate": 6.808118081180813e-05,
      "loss": 0.1385,
      "step": 1430
    },
    {
      "epoch": 5.313653136531365,
      "grad_norm": 0.3469581604003906,
      "learning_rate": 6.715867158671587e-05,
      "loss": 0.1394,
      "step": 1440
    },
    {
      "epoch": 5.350553505535055,
      "grad_norm": 0.267447292804718,
      "learning_rate": 6.623616236162362e-05,
      "loss": 0.1432,
      "step": 1450
    },
    {
      "epoch": 5.387453874538745,
      "grad_norm": 0.24406275153160095,
      "learning_rate": 6.531365313653137e-05,
      "loss": 0.1396,
      "step": 1460
    },
    {
      "epoch": 5.424354243542435,
      "grad_norm": 0.7067885994911194,
      "learning_rate": 6.439114391143912e-05,
      "loss": 0.1456,
      "step": 1470
    },
    {
      "epoch": 5.461254612546125,
      "grad_norm": 0.2915806174278259,
      "learning_rate": 6.346863468634686e-05,
      "loss": 0.1366,
      "step": 1480
    },
    {
      "epoch": 5.498154981549815,
      "grad_norm": 0.22377534210681915,
      "learning_rate": 6.25461254612546e-05,
      "loss": 0.1273,
      "step": 1490
    },
    {
      "epoch": 5.535055350553505,
      "grad_norm": 0.3705073893070221,
      "learning_rate": 6.162361623616236e-05,
      "loss": 0.1149,
      "step": 1500
    },
    {
      "epoch": 5.535055350553505,
      "eval_accuracy": 0.5583815028901734,
      "eval_loss": 0.12937474250793457,
      "eval_runtime": 50.8394,
      "eval_samples_per_second": 34.029,
      "eval_steps_per_second": 4.268,
      "step": 1500
    },
    {
      "epoch": 5.571955719557195,
      "grad_norm": 0.13345371186733246,
      "learning_rate": 6.070110701107011e-05,
      "loss": 0.1229,
      "step": 1510
    },
    {
      "epoch": 5.608856088560886,
      "grad_norm": 0.4122871160507202,
      "learning_rate": 5.9778597785977866e-05,
      "loss": 0.1689,
      "step": 1520
    },
    {
      "epoch": 5.645756457564576,
      "grad_norm": 0.14905782043933868,
      "learning_rate": 5.8856088560885615e-05,
      "loss": 0.1365,
      "step": 1530
    },
    {
      "epoch": 5.682656826568266,
      "grad_norm": 0.21198387444019318,
      "learning_rate": 5.7933579335793364e-05,
      "loss": 0.1453,
      "step": 1540
    },
    {
      "epoch": 5.719557195571956,
      "grad_norm": 0.3941808044910431,
      "learning_rate": 5.701107011070111e-05,
      "loss": 0.1584,
      "step": 1550
    },
    {
      "epoch": 5.756457564575646,
      "grad_norm": 0.1366042047739029,
      "learning_rate": 5.6088560885608855e-05,
      "loss": 0.1219,
      "step": 1560
    },
    {
      "epoch": 5.793357933579336,
      "grad_norm": 0.1590586006641388,
      "learning_rate": 5.5166051660516604e-05,
      "loss": 0.1482,
      "step": 1570
    },
    {
      "epoch": 5.830258302583026,
      "grad_norm": 0.3574014902114868,
      "learning_rate": 5.424354243542435e-05,
      "loss": 0.1241,
      "step": 1580
    },
    {
      "epoch": 5.867158671586716,
      "grad_norm": 0.2934325039386749,
      "learning_rate": 5.332103321033211e-05,
      "loss": 0.1397,
      "step": 1590
    },
    {
      "epoch": 5.904059040590406,
      "grad_norm": 0.2349650263786316,
      "learning_rate": 5.239852398523986e-05,
      "loss": 0.1448,
      "step": 1600
    },
    {
      "epoch": 5.904059040590406,
      "eval_accuracy": 0.5416184971098266,
      "eval_loss": 0.12662799656391144,
      "eval_runtime": 50.1064,
      "eval_samples_per_second": 34.527,
      "eval_steps_per_second": 4.331,
      "step": 1600
    },
    {
      "epoch": 5.940959409594096,
      "grad_norm": 0.39207130670547485,
      "learning_rate": 5.1476014760147606e-05,
      "loss": 0.1491,
      "step": 1610
    },
    {
      "epoch": 5.977859778597786,
      "grad_norm": 0.21359127759933472,
      "learning_rate": 5.0553505535055354e-05,
      "loss": 0.1367,
      "step": 1620
    },
    {
      "epoch": 6.014760147601476,
      "grad_norm": 0.17874382436275482,
      "learning_rate": 4.96309963099631e-05,
      "loss": 0.1276,
      "step": 1630
    },
    {
      "epoch": 6.051660516605166,
      "grad_norm": 0.15224817395210266,
      "learning_rate": 4.870848708487085e-05,
      "loss": 0.1223,
      "step": 1640
    },
    {
      "epoch": 6.088560885608856,
      "grad_norm": 0.28657016158103943,
      "learning_rate": 4.77859778597786e-05,
      "loss": 0.1327,
      "step": 1650
    },
    {
      "epoch": 6.125461254612546,
      "grad_norm": 0.16251201927661896,
      "learning_rate": 4.686346863468635e-05,
      "loss": 0.1318,
      "step": 1660
    },
    {
      "epoch": 6.162361623616236,
      "grad_norm": 0.3002704381942749,
      "learning_rate": 4.59409594095941e-05,
      "loss": 0.1188,
      "step": 1670
    },
    {
      "epoch": 6.199261992619927,
      "grad_norm": 0.4188823103904724,
      "learning_rate": 4.501845018450185e-05,
      "loss": 0.1004,
      "step": 1680
    },
    {
      "epoch": 6.236162361623617,
      "grad_norm": 0.18772590160369873,
      "learning_rate": 4.4095940959409596e-05,
      "loss": 0.1002,
      "step": 1690
    },
    {
      "epoch": 6.273062730627307,
      "grad_norm": 0.30921700596809387,
      "learning_rate": 4.3173431734317345e-05,
      "loss": 0.1035,
      "step": 1700
    },
    {
      "epoch": 6.273062730627307,
      "eval_accuracy": 0.6017341040462427,
      "eval_loss": 0.11507368832826614,
      "eval_runtime": 50.6734,
      "eval_samples_per_second": 34.14,
      "eval_steps_per_second": 4.282,
      "step": 1700
    },
    {
      "epoch": 6.3099630996309966,
      "grad_norm": 0.42562779784202576,
      "learning_rate": 4.2250922509225094e-05,
      "loss": 0.1071,
      "step": 1710
    },
    {
      "epoch": 6.3468634686346865,
      "grad_norm": 0.36547404527664185,
      "learning_rate": 4.132841328413284e-05,
      "loss": 0.12,
      "step": 1720
    },
    {
      "epoch": 6.3837638376383765,
      "grad_norm": 0.12006784975528717,
      "learning_rate": 4.040590405904059e-05,
      "loss": 0.1107,
      "step": 1730
    },
    {
      "epoch": 6.4206642066420665,
      "grad_norm": 0.1983233392238617,
      "learning_rate": 3.948339483394834e-05,
      "loss": 0.1206,
      "step": 1740
    },
    {
      "epoch": 6.4575645756457565,
      "grad_norm": 0.17691943049430847,
      "learning_rate": 3.856088560885609e-05,
      "loss": 0.1252,
      "step": 1750
    },
    {
      "epoch": 6.4944649446494465,
      "grad_norm": 0.39386728405952454,
      "learning_rate": 3.763837638376384e-05,
      "loss": 0.1314,
      "step": 1760
    },
    {
      "epoch": 6.531365313653136,
      "grad_norm": 0.607455313205719,
      "learning_rate": 3.6715867158671594e-05,
      "loss": 0.1095,
      "step": 1770
    },
    {
      "epoch": 6.568265682656826,
      "grad_norm": 0.21057389676570892,
      "learning_rate": 3.5793357933579336e-05,
      "loss": 0.1223,
      "step": 1780
    },
    {
      "epoch": 6.605166051660516,
      "grad_norm": 0.27539491653442383,
      "learning_rate": 3.4870848708487085e-05,
      "loss": 0.1163,
      "step": 1790
    },
    {
      "epoch": 6.642066420664206,
      "grad_norm": 0.24495290219783783,
      "learning_rate": 3.3948339483394833e-05,
      "loss": 0.1048,
      "step": 1800
    },
    {
      "epoch": 6.642066420664206,
      "eval_accuracy": 0.6046242774566474,
      "eval_loss": 0.10599144548177719,
      "eval_runtime": 50.9957,
      "eval_samples_per_second": 33.924,
      "eval_steps_per_second": 4.255,
      "step": 1800
    },
    {
      "epoch": 6.678966789667896,
      "grad_norm": 0.38892611861228943,
      "learning_rate": 3.302583025830259e-05,
      "loss": 0.1352,
      "step": 1810
    },
    {
      "epoch": 6.715867158671586,
      "grad_norm": 0.2850606143474579,
      "learning_rate": 3.210332103321033e-05,
      "loss": 0.1153,
      "step": 1820
    },
    {
      "epoch": 6.752767527675276,
      "grad_norm": 0.16241934895515442,
      "learning_rate": 3.118081180811808e-05,
      "loss": 0.1074,
      "step": 1830
    },
    {
      "epoch": 6.789667896678967,
      "grad_norm": 0.36088794469833374,
      "learning_rate": 3.0258302583025832e-05,
      "loss": 0.1219,
      "step": 1840
    },
    {
      "epoch": 6.826568265682657,
      "grad_norm": 0.21467632055282593,
      "learning_rate": 2.9335793357933584e-05,
      "loss": 0.1083,
      "step": 1850
    },
    {
      "epoch": 6.863468634686347,
      "grad_norm": 0.4730125069618225,
      "learning_rate": 2.8413284132841326e-05,
      "loss": 0.1227,
      "step": 1860
    },
    {
      "epoch": 6.900369003690037,
      "grad_norm": 0.20842638611793518,
      "learning_rate": 2.749077490774908e-05,
      "loss": 0.128,
      "step": 1870
    },
    {
      "epoch": 6.937269372693727,
      "grad_norm": 0.1885102540254593,
      "learning_rate": 2.6568265682656828e-05,
      "loss": 0.0923,
      "step": 1880
    },
    {
      "epoch": 6.974169741697417,
      "grad_norm": 0.48948994278907776,
      "learning_rate": 2.564575645756458e-05,
      "loss": 0.1165,
      "step": 1890
    },
    {
      "epoch": 7.011070110701107,
      "grad_norm": 0.4080180525779724,
      "learning_rate": 2.472324723247233e-05,
      "loss": 0.1168,
      "step": 1900
    },
    {
      "epoch": 7.011070110701107,
      "eval_accuracy": 0.6173410404624278,
      "eval_loss": 0.10073487460613251,
      "eval_runtime": 50.8605,
      "eval_samples_per_second": 34.015,
      "eval_steps_per_second": 4.267,
      "step": 1900
    },
    {
      "epoch": 7.047970479704797,
      "grad_norm": 0.19095434248447418,
      "learning_rate": 2.3800738007380074e-05,
      "loss": 0.1131,
      "step": 1910
    },
    {
      "epoch": 7.084870848708487,
      "grad_norm": 0.23603685200214386,
      "learning_rate": 2.2878228782287826e-05,
      "loss": 0.089,
      "step": 1920
    },
    {
      "epoch": 7.121771217712177,
      "grad_norm": 0.09547635912895203,
      "learning_rate": 2.195571955719557e-05,
      "loss": 0.1032,
      "step": 1930
    },
    {
      "epoch": 7.158671586715867,
      "grad_norm": 0.18442951142787933,
      "learning_rate": 2.1033210332103324e-05,
      "loss": 0.0909,
      "step": 1940
    },
    {
      "epoch": 7.195571955719557,
      "grad_norm": 0.2125350534915924,
      "learning_rate": 2.011070110701107e-05,
      "loss": 0.0922,
      "step": 1950
    },
    {
      "epoch": 7.232472324723247,
      "grad_norm": 0.15140217542648315,
      "learning_rate": 1.918819188191882e-05,
      "loss": 0.1155,
      "step": 1960
    },
    {
      "epoch": 7.269372693726937,
      "grad_norm": 0.25905662775039673,
      "learning_rate": 1.826568265682657e-05,
      "loss": 0.1194,
      "step": 1970
    },
    {
      "epoch": 7.306273062730627,
      "grad_norm": 0.18217885494232178,
      "learning_rate": 1.734317343173432e-05,
      "loss": 0.1,
      "step": 1980
    },
    {
      "epoch": 7.343173431734318,
      "grad_norm": 0.21871539950370789,
      "learning_rate": 1.6420664206642068e-05,
      "loss": 0.1022,
      "step": 1990
    },
    {
      "epoch": 7.380073800738008,
      "grad_norm": 0.4127865731716156,
      "learning_rate": 1.5498154981549817e-05,
      "loss": 0.1104,
      "step": 2000
    },
    {
      "epoch": 7.380073800738008,
      "eval_accuracy": 0.6445086705202312,
      "eval_loss": 0.09489033371210098,
      "eval_runtime": 50.8042,
      "eval_samples_per_second": 34.052,
      "eval_steps_per_second": 4.271,
      "step": 2000
    },
    {
      "epoch": 7.416974169741698,
      "grad_norm": 0.20000500977039337,
      "learning_rate": 1.4575645756457566e-05,
      "loss": 0.1031,
      "step": 2010
    },
    {
      "epoch": 7.453874538745388,
      "grad_norm": 0.5234202742576599,
      "learning_rate": 1.3653136531365315e-05,
      "loss": 0.1197,
      "step": 2020
    },
    {
      "epoch": 7.490774907749078,
      "grad_norm": 0.16442282497882843,
      "learning_rate": 1.2730627306273063e-05,
      "loss": 0.1036,
      "step": 2030
    },
    {
      "epoch": 7.527675276752768,
      "grad_norm": 0.19210496544837952,
      "learning_rate": 1.1808118081180812e-05,
      "loss": 0.0993,
      "step": 2040
    },
    {
      "epoch": 7.564575645756458,
      "grad_norm": 0.1562729775905609,
      "learning_rate": 1.0885608856088561e-05,
      "loss": 0.0941,
      "step": 2050
    },
    {
      "epoch": 7.601476014760148,
      "grad_norm": 0.29051193594932556,
      "learning_rate": 9.96309963099631e-06,
      "loss": 0.092,
      "step": 2060
    },
    {
      "epoch": 7.638376383763838,
      "grad_norm": 0.21477282047271729,
      "learning_rate": 9.040590405904059e-06,
      "loss": 0.1123,
      "step": 2070
    },
    {
      "epoch": 7.675276752767528,
      "grad_norm": 0.03506307676434517,
      "learning_rate": 8.118081180811808e-06,
      "loss": 0.0927,
      "step": 2080
    },
    {
      "epoch": 7.712177121771218,
      "grad_norm": 0.21280255913734436,
      "learning_rate": 7.195571955719557e-06,
      "loss": 0.084,
      "step": 2090
    },
    {
      "epoch": 7.749077490774908,
      "grad_norm": 0.19547449052333832,
      "learning_rate": 6.273062730627306e-06,
      "loss": 0.0873,
      "step": 2100
    },
    {
      "epoch": 7.749077490774908,
      "eval_accuracy": 0.6526011560693642,
      "eval_loss": 0.0923289805650711,
      "eval_runtime": 50.6448,
      "eval_samples_per_second": 34.159,
      "eval_steps_per_second": 4.285,
      "step": 2100
    },
    {
      "epoch": 7.785977859778598,
      "grad_norm": 0.22129392623901367,
      "learning_rate": 5.350553505535055e-06,
      "loss": 0.1,
      "step": 2110
    },
    {
      "epoch": 7.822878228782288,
      "grad_norm": 0.2631789445877075,
      "learning_rate": 4.428044280442805e-06,
      "loss": 0.0811,
      "step": 2120
    },
    {
      "epoch": 7.8597785977859775,
      "grad_norm": 0.16971804201602936,
      "learning_rate": 3.5055350553505534e-06,
      "loss": 0.0977,
      "step": 2130
    },
    {
      "epoch": 7.8966789667896675,
      "grad_norm": 0.10247929394245148,
      "learning_rate": 2.5830258302583027e-06,
      "loss": 0.0966,
      "step": 2140
    },
    {
      "epoch": 7.9335793357933575,
      "grad_norm": 0.15865936875343323,
      "learning_rate": 1.6605166051660517e-06,
      "loss": 0.1039,
      "step": 2150
    },
    {
      "epoch": 7.970479704797048,
      "grad_norm": 0.506331205368042,
      "learning_rate": 7.380073800738008e-07,
      "loss": 0.0977,
      "step": 2160
    },
    {
      "epoch": 8.0,
      "step": 2168,
      "total_flos": 2.6821552511927255e+18,
      "train_loss": 0.16216810325304962,
      "train_runtime": 3143.5173,
      "train_samples_per_second": 11.009,
      "train_steps_per_second": 0.69
    }
  ],
  "logging_steps": 10,
  "max_steps": 2168,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.6821552511927255e+18,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}