{
  "best_metric": Infinity,
  "best_model_checkpoint": null,
  "epoch": 2.9979908675799085,
  "eval_steps": 50,
  "global_step": 4104,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0073059360730593605,
      "grad_norm": NaN,
      "learning_rate": 2e-05,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.014611872146118721,
      "grad_norm": NaN,
      "learning_rate": 4e-05,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.021917808219178082,
      "grad_norm": NaN,
      "learning_rate": 6e-05,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.029223744292237442,
      "grad_norm": NaN,
      "learning_rate": 8e-05,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.0365296803652968,
      "grad_norm": NaN,
      "learning_rate": 0.0001,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.0365296803652968,
      "eval_loss": NaN,
      "eval_runtime": 86.8266,
      "eval_samples_per_second": 121.737,
      "eval_steps_per_second": 7.613,
      "step": 50
    },
    {
      "epoch": 0.043835616438356165,
      "grad_norm": NaN,
      "learning_rate": 9.97533300444006e-05,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.05114155251141553,
      "grad_norm": NaN,
      "learning_rate": 9.950666008880118e-05,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.058447488584474884,
      "grad_norm": NaN,
      "learning_rate": 9.925999013320178e-05,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.06575342465753424,
      "grad_norm": NaN,
      "learning_rate": 9.901332017760238e-05,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 0.0730593607305936,
      "grad_norm": NaN,
      "learning_rate": 9.876665022200296e-05,
      "loss": 0.0,
      "step": 100
    },
    {
      "epoch": 0.0730593607305936,
      "eval_loss": NaN,
      "eval_runtime": 89.5193,
      "eval_samples_per_second": 118.075,
      "eval_steps_per_second": 7.384,
      "step": 100
    },
    {
      "epoch": 0.08036529680365297,
      "grad_norm": NaN,
      "learning_rate": 9.851998026640355e-05,
      "loss": 0.0,
      "step": 110
    },
    {
      "epoch": 0.08767123287671233,
      "grad_norm": NaN,
      "learning_rate": 9.827331031080415e-05,
      "loss": 0.0,
      "step": 120
    },
    {
      "epoch": 0.09497716894977169,
      "grad_norm": NaN,
      "learning_rate": 9.802664035520473e-05,
      "loss": 0.0,
      "step": 130
    },
    {
      "epoch": 0.10228310502283106,
      "grad_norm": NaN,
      "learning_rate": 9.777997039960533e-05,
      "loss": 0.0,
      "step": 140
    },
    {
      "epoch": 0.1095890410958904,
      "grad_norm": NaN,
      "learning_rate": 9.753330044400593e-05,
      "loss": 0.0,
      "step": 150
    },
    {
      "epoch": 0.1095890410958904,
      "eval_loss": NaN,
      "eval_runtime": 89.6606,
      "eval_samples_per_second": 117.889,
      "eval_steps_per_second": 7.372,
      "step": 150
    },
    {
      "epoch": 0.11689497716894977,
      "grad_norm": NaN,
      "learning_rate": 9.728663048840652e-05,
      "loss": 0.0,
      "step": 160
    },
    {
      "epoch": 0.12420091324200913,
      "grad_norm": NaN,
      "learning_rate": 9.70399605328071e-05,
      "loss": 0.0,
      "step": 170
    },
    {
      "epoch": 0.13150684931506848,
      "grad_norm": NaN,
      "learning_rate": 9.67932905772077e-05,
      "loss": 0.0,
      "step": 180
    },
    {
      "epoch": 0.13881278538812786,
      "grad_norm": NaN,
      "learning_rate": 9.65466206216083e-05,
      "loss": 0.0,
      "step": 190
    },
    {
      "epoch": 0.1461187214611872,
      "grad_norm": NaN,
      "learning_rate": 9.629995066600888e-05,
      "loss": 0.0,
      "step": 200
    },
    {
      "epoch": 0.1461187214611872,
      "eval_loss": NaN,
      "eval_runtime": 87.4596,
      "eval_samples_per_second": 120.856,
      "eval_steps_per_second": 7.558,
      "step": 200
    },
    {
      "epoch": 0.15342465753424658,
      "grad_norm": NaN,
      "learning_rate": 9.605328071040948e-05,
      "loss": 0.0,
      "step": 210
    },
    {
      "epoch": 0.16073059360730593,
      "grad_norm": NaN,
      "learning_rate": 9.580661075481007e-05,
      "loss": 0.0,
      "step": 220
    },
    {
      "epoch": 0.1680365296803653,
      "grad_norm": NaN,
      "learning_rate": 9.555994079921066e-05,
      "loss": 0.0,
      "step": 230
    },
    {
      "epoch": 0.17534246575342466,
      "grad_norm": NaN,
      "learning_rate": 9.531327084361125e-05,
      "loss": 0.0,
      "step": 240
    },
    {
      "epoch": 0.182648401826484,
      "grad_norm": NaN,
      "learning_rate": 9.506660088801185e-05,
      "loss": 0.0,
      "step": 250
    },
    {
      "epoch": 0.182648401826484,
      "eval_loss": NaN,
      "eval_runtime": 87.3071,
      "eval_samples_per_second": 121.067,
      "eval_steps_per_second": 7.571,
      "step": 250
    },
    {
      "epoch": 0.18995433789954339,
      "grad_norm": NaN,
      "learning_rate": 9.481993093241244e-05,
      "loss": 0.0,
      "step": 260
    },
    {
      "epoch": 0.19726027397260273,
      "grad_norm": NaN,
      "learning_rate": 9.457326097681303e-05,
      "loss": 0.0,
      "step": 270
    },
    {
      "epoch": 0.2045662100456621,
      "grad_norm": NaN,
      "learning_rate": 9.432659102121362e-05,
      "loss": 0.0,
      "step": 280
    },
    {
      "epoch": 0.21187214611872146,
      "grad_norm": NaN,
      "learning_rate": 9.40799210656142e-05,
      "loss": 0.0,
      "step": 290
    },
    {
      "epoch": 0.2191780821917808,
      "grad_norm": NaN,
      "learning_rate": 9.38332511100148e-05,
      "loss": 0.0,
      "step": 300
    },
    {
      "epoch": 0.2191780821917808,
      "eval_loss": NaN,
      "eval_runtime": 87.4316,
      "eval_samples_per_second": 120.895,
      "eval_steps_per_second": 7.56,
      "step": 300
    },
    {
      "epoch": 0.2264840182648402,
      "grad_norm": NaN,
      "learning_rate": 9.35865811544154e-05,
      "loss": 0.0,
      "step": 310
    },
    {
      "epoch": 0.23378995433789954,
      "grad_norm": NaN,
      "learning_rate": 9.3339911198816e-05,
      "loss": 0.0,
      "step": 320
    },
    {
      "epoch": 0.2410958904109589,
      "grad_norm": NaN,
      "learning_rate": 9.309324124321658e-05,
      "loss": 0.0,
      "step": 330
    },
    {
      "epoch": 0.24840182648401826,
      "grad_norm": NaN,
      "learning_rate": 9.284657128761717e-05,
      "loss": 0.0,
      "step": 340
    },
    {
      "epoch": 0.2557077625570776,
      "grad_norm": NaN,
      "learning_rate": 9.259990133201777e-05,
      "loss": 0.0,
      "step": 350
    },
    {
      "epoch": 0.2557077625570776,
      "eval_loss": NaN,
      "eval_runtime": 89.7649,
      "eval_samples_per_second": 117.752,
      "eval_steps_per_second": 7.364,
      "step": 350
    },
    {
      "epoch": 0.26301369863013696,
      "grad_norm": NaN,
      "learning_rate": 9.235323137641837e-05,
      "loss": 0.0,
      "step": 360
    },
    {
      "epoch": 0.27031963470319637,
      "grad_norm": NaN,
      "learning_rate": 9.210656142081895e-05,
      "loss": 0.0,
      "step": 370
    },
    {
      "epoch": 0.2776255707762557,
      "grad_norm": NaN,
      "learning_rate": 9.185989146521954e-05,
      "loss": 0.0,
      "step": 380
    },
    {
      "epoch": 0.28493150684931506,
      "grad_norm": NaN,
      "learning_rate": 9.161322150962013e-05,
      "loss": 0.0,
      "step": 390
    },
    {
      "epoch": 0.2922374429223744,
      "grad_norm": NaN,
      "learning_rate": 9.136655155402072e-05,
      "loss": 0.0,
      "step": 400
    },
    {
      "epoch": 0.2922374429223744,
      "eval_loss": NaN,
      "eval_runtime": 89.6739,
      "eval_samples_per_second": 117.871,
      "eval_steps_per_second": 7.371,
      "step": 400
    },
    {
      "epoch": 0.29954337899543376,
      "grad_norm": NaN,
      "learning_rate": 9.111988159842132e-05,
      "loss": 0.0,
      "step": 410
    },
    {
      "epoch": 0.30684931506849317,
      "grad_norm": NaN,
      "learning_rate": 9.087321164282192e-05,
      "loss": 0.0,
      "step": 420
    },
    {
      "epoch": 0.3141552511415525,
      "grad_norm": NaN,
      "learning_rate": 9.06265416872225e-05,
      "loss": 0.0,
      "step": 430
    },
    {
      "epoch": 0.32146118721461187,
      "grad_norm": NaN,
      "learning_rate": 9.03798717316231e-05,
      "loss": 0.0,
      "step": 440
    },
    {
      "epoch": 0.3287671232876712,
      "grad_norm": NaN,
      "learning_rate": 9.013320177602368e-05,
      "loss": 0.0,
      "step": 450
    },
    {
      "epoch": 0.3287671232876712,
      "eval_loss": NaN,
      "eval_runtime": 87.7201,
      "eval_samples_per_second": 120.497,
      "eval_steps_per_second": 7.535,
      "step": 450
    },
    {
      "epoch": 0.3360730593607306,
      "grad_norm": NaN,
      "learning_rate": 8.988653182042427e-05,
      "loss": 0.0,
      "step": 460
    },
    {
      "epoch": 0.34337899543378997,
      "grad_norm": NaN,
      "learning_rate": 8.963986186482487e-05,
      "loss": 0.0,
      "step": 470
    },
    {
      "epoch": 0.3506849315068493,
      "grad_norm": NaN,
      "learning_rate": 8.939319190922547e-05,
      "loss": 0.0,
      "step": 480
    },
    {
      "epoch": 0.35799086757990867,
      "grad_norm": NaN,
      "learning_rate": 8.914652195362605e-05,
      "loss": 0.0,
      "step": 490
    },
    {
      "epoch": 0.365296803652968,
      "grad_norm": NaN,
      "learning_rate": 8.889985199802664e-05,
      "loss": 0.0,
      "step": 500
    },
    {
      "epoch": 0.365296803652968,
      "eval_loss": NaN,
      "eval_runtime": 87.4748,
      "eval_samples_per_second": 120.835,
      "eval_steps_per_second": 7.556,
      "step": 500
    },
    {
      "epoch": 0.3726027397260274,
      "grad_norm": NaN,
      "learning_rate": 8.865318204242724e-05,
      "loss": 0.0,
      "step": 510
    },
    {
      "epoch": 0.37990867579908677,
      "grad_norm": NaN,
      "learning_rate": 8.840651208682784e-05,
      "loss": 0.0,
      "step": 520
    },
    {
      "epoch": 0.3872146118721461,
      "grad_norm": NaN,
      "learning_rate": 8.815984213122842e-05,
      "loss": 0.0,
      "step": 530
    },
    {
      "epoch": 0.39452054794520547,
      "grad_norm": NaN,
      "learning_rate": 8.791317217562902e-05,
      "loss": 0.0,
      "step": 540
    },
    {
      "epoch": 0.4018264840182648,
      "grad_norm": NaN,
      "learning_rate": 8.76665022200296e-05,
      "loss": 0.0,
      "step": 550
    },
    {
      "epoch": 0.4018264840182648,
      "eval_loss": NaN,
      "eval_runtime": 87.3047,
      "eval_samples_per_second": 121.07,
      "eval_steps_per_second": 7.571,
      "step": 550
    },
    {
      "epoch": 0.4091324200913242,
      "grad_norm": NaN,
      "learning_rate": 8.74198322644302e-05,
      "loss": 0.0,
      "step": 560
    },
    {
      "epoch": 0.41643835616438357,
      "grad_norm": NaN,
      "learning_rate": 8.717316230883079e-05,
      "loss": 0.0,
      "step": 570
    },
    {
      "epoch": 0.4237442922374429,
      "grad_norm": NaN,
      "learning_rate": 8.692649235323139e-05,
      "loss": 0.0,
      "step": 580
    },
    {
      "epoch": 0.43105022831050227,
      "grad_norm": NaN,
      "learning_rate": 8.667982239763197e-05,
      "loss": 0.0,
      "step": 590
    },
    {
      "epoch": 0.4383561643835616,
      "grad_norm": NaN,
      "learning_rate": 8.643315244203257e-05,
      "loss": 0.0,
      "step": 600
    },
    {
      "epoch": 0.4383561643835616,
      "eval_loss": NaN,
      "eval_runtime": 87.4314,
      "eval_samples_per_second": 120.895,
      "eval_steps_per_second": 7.56,
      "step": 600
    },
    {
      "epoch": 0.445662100456621,
      "grad_norm": NaN,
      "learning_rate": 8.618648248643315e-05,
      "loss": 0.0,
      "step": 610
    },
    {
      "epoch": 0.4529680365296804,
      "grad_norm": NaN,
      "learning_rate": 8.593981253083376e-05,
      "loss": 0.0,
      "step": 620
    },
    {
      "epoch": 0.4602739726027397,
      "grad_norm": NaN,
      "learning_rate": 8.569314257523434e-05,
      "loss": 0.0,
      "step": 630
    },
    {
      "epoch": 0.46757990867579907,
      "grad_norm": NaN,
      "learning_rate": 8.544647261963494e-05,
      "loss": 0.0,
      "step": 640
    },
    {
      "epoch": 0.4748858447488584,
      "grad_norm": NaN,
      "learning_rate": 8.519980266403552e-05,
      "loss": 0.0,
      "step": 650
    },
    {
      "epoch": 0.4748858447488584,
      "eval_loss": NaN,
      "eval_runtime": 88.9686,
      "eval_samples_per_second": 118.806,
      "eval_steps_per_second": 7.43,
      "step": 650
    },
    {
      "epoch": 0.4821917808219178,
      "grad_norm": NaN,
      "learning_rate": 8.495313270843612e-05,
      "loss": 0.0,
      "step": 660
    },
    {
      "epoch": 0.4894977168949772,
      "grad_norm": NaN,
      "learning_rate": 8.470646275283671e-05,
      "loss": 0.0,
      "step": 670
    },
    {
      "epoch": 0.4968036529680365,
      "grad_norm": NaN,
      "learning_rate": 8.445979279723731e-05,
      "loss": 0.0,
      "step": 680
    },
    {
      "epoch": 0.5041095890410959,
      "grad_norm": NaN,
      "learning_rate": 8.421312284163789e-05,
      "loss": 0.0,
      "step": 690
    },
    {
      "epoch": 0.5114155251141552,
      "grad_norm": NaN,
      "learning_rate": 8.396645288603849e-05,
      "loss": 0.0,
      "step": 700
    },
    {
      "epoch": 0.5114155251141552,
      "eval_loss": NaN,
      "eval_runtime": 89.7675,
      "eval_samples_per_second": 117.749,
      "eval_steps_per_second": 7.363,
      "step": 700
    },
    {
      "epoch": 0.5187214611872146,
      "grad_norm": NaN,
      "learning_rate": 8.371978293043907e-05,
      "loss": 0.0,
      "step": 710
    },
    {
      "epoch": 0.5260273972602739,
      "grad_norm": NaN,
      "learning_rate": 8.347311297483968e-05,
      "loss": 0.0,
      "step": 720
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": NaN,
      "learning_rate": 8.322644301924026e-05,
      "loss": 0.0,
      "step": 730
    },
    {
      "epoch": 0.5406392694063927,
      "grad_norm": NaN,
      "learning_rate": 8.297977306364086e-05,
      "loss": 0.0,
      "step": 740
    },
    {
      "epoch": 0.547945205479452,
      "grad_norm": NaN,
      "learning_rate": 8.273310310804144e-05,
      "loss": 0.0,
      "step": 750
    },
    {
      "epoch": 0.547945205479452,
      "eval_loss": NaN,
      "eval_runtime": 89.6344,
      "eval_samples_per_second": 117.923,
      "eval_steps_per_second": 7.374,
      "step": 750
    },
    {
      "epoch": 0.5552511415525114,
      "grad_norm": NaN,
      "learning_rate": 8.248643315244204e-05,
      "loss": 0.0,
      "step": 760
    },
    {
      "epoch": 0.5625570776255707,
      "grad_norm": NaN,
      "learning_rate": 8.223976319684262e-05,
      "loss": 0.0,
      "step": 770
    },
    {
      "epoch": 0.5698630136986301,
      "grad_norm": NaN,
      "learning_rate": 8.199309324124323e-05,
      "loss": 0.0,
      "step": 780
    },
    {
      "epoch": 0.5771689497716895,
      "grad_norm": NaN,
      "learning_rate": 8.174642328564381e-05,
      "loss": 0.0,
      "step": 790
    },
    {
      "epoch": 0.5844748858447488,
      "grad_norm": NaN,
      "learning_rate": 8.149975333004441e-05,
      "loss": 0.0,
      "step": 800
    },
    {
      "epoch": 0.5844748858447488,
      "eval_loss": NaN,
      "eval_runtime": 87.5041,
      "eval_samples_per_second": 120.794,
      "eval_steps_per_second": 7.554,
      "step": 800
    },
    {
      "epoch": 0.5917808219178082,
      "grad_norm": NaN,
      "learning_rate": 8.125308337444499e-05,
      "loss": 0.0,
      "step": 810
    },
    {
      "epoch": 0.5990867579908675,
      "grad_norm": NaN,
      "learning_rate": 8.100641341884559e-05,
      "loss": 0.0,
      "step": 820
    },
    {
      "epoch": 0.6063926940639269,
      "grad_norm": NaN,
      "learning_rate": 8.075974346324618e-05,
      "loss": 0.0,
      "step": 830
    },
    {
      "epoch": 0.6136986301369863,
      "grad_norm": NaN,
      "learning_rate": 8.051307350764678e-05,
      "loss": 0.0,
      "step": 840
    },
    {
      "epoch": 0.6210045662100456,
      "grad_norm": NaN,
      "learning_rate": 8.026640355204736e-05,
      "loss": 0.0,
      "step": 850
    },
    {
      "epoch": 0.6210045662100456,
      "eval_loss": NaN,
      "eval_runtime": 87.6119,
      "eval_samples_per_second": 120.646,
      "eval_steps_per_second": 7.545,
      "step": 850
    },
    {
      "epoch": 0.628310502283105,
      "grad_norm": NaN,
      "learning_rate": 8.001973359644796e-05,
      "loss": 0.0,
      "step": 860
    },
    {
      "epoch": 0.6356164383561644,
      "grad_norm": NaN,
      "learning_rate": 7.977306364084854e-05,
      "loss": 0.0,
      "step": 870
    },
    {
      "epoch": 0.6429223744292237,
      "grad_norm": NaN,
      "learning_rate": 7.952639368524915e-05,
      "loss": 0.0,
      "step": 880
    },
    {
      "epoch": 0.6502283105022831,
      "grad_norm": NaN,
      "learning_rate": 7.927972372964973e-05,
      "loss": 0.0,
      "step": 890
    },
    {
      "epoch": 0.6575342465753424,
      "grad_norm": NaN,
      "learning_rate": 7.903305377405033e-05,
      "loss": 0.0,
      "step": 900
    },
    {
      "epoch": 0.6575342465753424,
      "eval_loss": NaN,
      "eval_runtime": 87.2395,
      "eval_samples_per_second": 121.161,
      "eval_steps_per_second": 7.577,
      "step": 900
    },
    {
      "epoch": 0.6648401826484018,
      "grad_norm": NaN,
      "learning_rate": 7.878638381845091e-05,
      "loss": 0.0,
      "step": 910
    },
    {
      "epoch": 0.6721461187214612,
      "grad_norm": NaN,
      "learning_rate": 7.853971386285151e-05,
      "loss": 0.0,
      "step": 920
    },
    {
      "epoch": 0.6794520547945205,
      "grad_norm": NaN,
      "learning_rate": 7.829304390725209e-05,
      "loss": 0.0,
      "step": 930
    },
    {
      "epoch": 0.6867579908675799,
      "grad_norm": NaN,
      "learning_rate": 7.80463739516527e-05,
      "loss": 0.0,
      "step": 940
    },
    {
      "epoch": 0.6940639269406392,
      "grad_norm": NaN,
      "learning_rate": 7.779970399605328e-05,
      "loss": 0.0,
      "step": 950
    },
    {
      "epoch": 0.6940639269406392,
      "eval_loss": NaN,
      "eval_runtime": 88.6493,
      "eval_samples_per_second": 119.234,
      "eval_steps_per_second": 7.456,
      "step": 950
    },
    {
      "epoch": 0.7013698630136986,
      "grad_norm": NaN,
      "learning_rate": 7.755303404045388e-05,
      "loss": 0.0,
      "step": 960
    },
    {
      "epoch": 0.708675799086758,
      "grad_norm": NaN,
      "learning_rate": 7.730636408485446e-05,
      "loss": 0.0,
      "step": 970
    },
    {
      "epoch": 0.7159817351598173,
      "grad_norm": NaN,
      "learning_rate": 7.705969412925506e-05,
      "loss": 0.0,
      "step": 980
    },
    {
      "epoch": 0.7232876712328767,
      "grad_norm": NaN,
      "learning_rate": 7.681302417365566e-05,
      "loss": 0.0,
      "step": 990
    },
    {
      "epoch": 0.730593607305936,
      "grad_norm": NaN,
      "learning_rate": 7.656635421805625e-05,
      "loss": 0.0,
      "step": 1000
    },
    {
      "epoch": 0.730593607305936,
      "eval_loss": NaN,
      "eval_runtime": 89.7851,
      "eval_samples_per_second": 117.726,
      "eval_steps_per_second": 7.362,
      "step": 1000
    },
    {
      "epoch": 0.7378995433789954,
      "grad_norm": NaN,
      "learning_rate": 7.631968426245683e-05,
      "loss": 0.0,
      "step": 1010
    },
    {
      "epoch": 0.7452054794520548,
      "grad_norm": NaN,
      "learning_rate": 7.607301430685743e-05,
      "loss": 0.0,
      "step": 1020
    },
    {
      "epoch": 0.7525114155251141,
      "grad_norm": NaN,
      "learning_rate": 7.582634435125801e-05,
      "loss": 0.0,
      "step": 1030
    },
    {
      "epoch": 0.7598173515981735,
      "grad_norm": NaN,
      "learning_rate": 7.557967439565862e-05,
      "loss": 0.0,
      "step": 1040
    },
    {
      "epoch": 0.7671232876712328,
      "grad_norm": NaN,
      "learning_rate": 7.53330044400592e-05,
      "loss": 0.0,
      "step": 1050
    },
    {
      "epoch": 0.7671232876712328,
      "eval_loss": NaN,
      "eval_runtime": 89.5436,
      "eval_samples_per_second": 118.043,
      "eval_steps_per_second": 7.382,
      "step": 1050
    },
    {
      "epoch": 0.7744292237442922,
      "grad_norm": NaN,
      "learning_rate": 7.50863344844598e-05,
      "loss": 0.0,
      "step": 1060
    },
    {
      "epoch": 0.7817351598173516,
      "grad_norm": NaN,
      "learning_rate": 7.483966452886039e-05,
      "loss": 0.0,
      "step": 1070
    },
    {
      "epoch": 0.7890410958904109,
      "grad_norm": NaN,
      "learning_rate": 7.459299457326098e-05,
      "loss": 0.0,
      "step": 1080
    },
    {
      "epoch": 0.7963470319634703,
      "grad_norm": NaN,
      "learning_rate": 7.434632461766156e-05,
      "loss": 0.0,
      "step": 1090
    },
    {
      "epoch": 0.8036529680365296,
      "grad_norm": NaN,
      "learning_rate": 7.409965466206217e-05,
      "loss": 0.0,
      "step": 1100
    },
    {
      "epoch": 0.8036529680365296,
      "eval_loss": NaN,
      "eval_runtime": 87.5031,
      "eval_samples_per_second": 120.796,
      "eval_steps_per_second": 7.554,
      "step": 1100
    },
    {
      "epoch": 0.810958904109589,
      "grad_norm": NaN,
      "learning_rate": 7.385298470646276e-05,
      "loss": 0.0,
      "step": 1110
    },
    {
      "epoch": 0.8182648401826484,
      "grad_norm": NaN,
      "learning_rate": 7.360631475086335e-05,
      "loss": 0.0,
      "step": 1120
    },
    {
      "epoch": 0.8255707762557077,
      "grad_norm": NaN,
      "learning_rate": 7.335964479526394e-05,
      "loss": 0.0,
      "step": 1130
    },
    {
      "epoch": 0.8328767123287671,
      "grad_norm": NaN,
      "learning_rate": 7.311297483966453e-05,
      "loss": 0.0,
      "step": 1140
    },
    {
      "epoch": 0.8401826484018264,
      "grad_norm": NaN,
      "learning_rate": 7.286630488406513e-05,
      "loss": 0.0,
      "step": 1150
    },
    {
      "epoch": 0.8401826484018264,
      "eval_loss": NaN,
      "eval_runtime": 87.5455,
      "eval_samples_per_second": 120.737,
      "eval_steps_per_second": 7.55,
      "step": 1150
    },
    {
      "epoch": 0.8474885844748858,
      "grad_norm": NaN,
      "learning_rate": 7.261963492846572e-05,
      "loss": 0.0,
      "step": 1160
    },
    {
      "epoch": 0.8547945205479452,
      "grad_norm": NaN,
      "learning_rate": 7.23729649728663e-05,
      "loss": 0.0,
      "step": 1170
    },
    {
      "epoch": 0.8621004566210045,
      "grad_norm": NaN,
      "learning_rate": 7.21262950172669e-05,
      "loss": 0.0,
      "step": 1180
    },
    {
      "epoch": 0.869406392694064,
      "grad_norm": NaN,
      "learning_rate": 7.187962506166749e-05,
      "loss": 0.0,
      "step": 1190
    },
    {
      "epoch": 0.8767123287671232,
      "grad_norm": NaN,
      "learning_rate": 7.16329551060681e-05,
      "loss": 0.0,
      "step": 1200
    },
    {
      "epoch": 0.8767123287671232,
      "eval_loss": NaN,
      "eval_runtime": 87.4965,
      "eval_samples_per_second": 120.805,
      "eval_steps_per_second": 7.555,
      "step": 1200
    },
    {
      "epoch": 0.8840182648401826,
      "grad_norm": NaN,
      "learning_rate": 7.138628515046868e-05,
      "loss": 0.0,
      "step": 1210
    },
    {
      "epoch": 0.891324200913242,
      "grad_norm": NaN,
      "learning_rate": 7.113961519486927e-05,
      "loss": 0.0,
      "step": 1220
    },
    {
      "epoch": 0.8986301369863013,
      "grad_norm": NaN,
      "learning_rate": 7.089294523926986e-05,
      "loss": 0.0,
      "step": 1230
    },
    {
      "epoch": 0.9059360730593607,
      "grad_norm": NaN,
      "learning_rate": 7.064627528367045e-05,
      "loss": 0.0,
      "step": 1240
    },
    {
      "epoch": 0.91324200913242,
      "grad_norm": NaN,
      "learning_rate": 7.039960532807104e-05,
      "loss": 0.0,
      "step": 1250
    },
    {
      "epoch": 0.91324200913242,
      "eval_loss": NaN,
      "eval_runtime": 87.5268,
      "eval_samples_per_second": 120.763,
      "eval_steps_per_second": 7.552,
      "step": 1250
    },
    {
      "epoch": 0.9205479452054794,
      "grad_norm": NaN,
      "learning_rate": 7.015293537247165e-05,
      "loss": 0.0,
      "step": 1260
    },
    {
      "epoch": 0.9278538812785389,
      "grad_norm": NaN,
      "learning_rate": 6.990626541687223e-05,
      "loss": 0.0,
      "step": 1270
    },
    {
      "epoch": 0.9351598173515981,
      "grad_norm": NaN,
      "learning_rate": 6.965959546127282e-05,
      "loss": 0.0,
      "step": 1280
    },
    {
      "epoch": 0.9424657534246575,
      "grad_norm": NaN,
      "learning_rate": 6.941292550567341e-05,
      "loss": 0.0,
      "step": 1290
    },
    {
      "epoch": 0.9497716894977168,
      "grad_norm": NaN,
      "learning_rate": 6.9166255550074e-05,
      "loss": 0.0,
      "step": 1300
    },
    {
      "epoch": 0.9497716894977168,
      "eval_loss": NaN,
      "eval_runtime": 89.7784,
      "eval_samples_per_second": 117.734,
      "eval_steps_per_second": 7.363,
      "step": 1300
    },
    {
      "epoch": 0.9570776255707762,
      "grad_norm": NaN,
      "learning_rate": 6.89195855944746e-05,
      "loss": 0.0,
      "step": 1310
    },
    {
      "epoch": 0.9643835616438357,
      "grad_norm": NaN,
      "learning_rate": 6.86729156388752e-05,
      "loss": 0.0,
      "step": 1320
    },
    {
      "epoch": 0.971689497716895,
      "grad_norm": NaN,
      "learning_rate": 6.842624568327578e-05,
      "loss": 0.0,
      "step": 1330
    },
    {
      "epoch": 0.9789954337899544,
      "grad_norm": NaN,
      "learning_rate": 6.817957572767637e-05,
      "loss": 0.0,
      "step": 1340
    },
    {
      "epoch": 0.9863013698630136,
      "grad_norm": NaN,
      "learning_rate": 6.793290577207696e-05,
      "loss": 0.0,
      "step": 1350
    },
    {
      "epoch": 0.9863013698630136,
      "eval_loss": NaN,
      "eval_runtime": 89.7601,
      "eval_samples_per_second": 117.758,
      "eval_steps_per_second": 7.364,
      "step": 1350
    },
    {
      "epoch": 0.993607305936073,
      "grad_norm": NaN,
      "learning_rate": 6.768623581647757e-05,
      "loss": 0.0,
      "step": 1360
    },
    {
      "epoch": 1.0007305936073059,
      "grad_norm": NaN,
      "learning_rate": 6.743956586087815e-05,
      "loss": 0.0,
      "step": 1370
    },
    {
      "epoch": 1.0080365296803653,
      "grad_norm": NaN,
      "learning_rate": 6.719289590527875e-05,
      "loss": 0.0,
      "step": 1380
    },
    {
      "epoch": 1.0153424657534247,
      "grad_norm": NaN,
      "learning_rate": 6.694622594967933e-05,
      "loss": 0.0,
      "step": 1390
    },
    {
      "epoch": 1.022648401826484,
      "grad_norm": NaN,
      "learning_rate": 6.669955599407992e-05,
      "loss": 0.0,
      "step": 1400
    },
    {
      "epoch": 1.022648401826484,
      "eval_loss": NaN,
      "eval_runtime": 87.4612,
      "eval_samples_per_second": 120.854,
      "eval_steps_per_second": 7.558,
      "step": 1400
    },
    {
      "epoch": 1.0299543378995433,
      "grad_norm": NaN,
      "learning_rate": 6.645288603848051e-05,
      "loss": 0.0,
      "step": 1410
    },
    {
      "epoch": 1.0372602739726027,
      "grad_norm": NaN,
      "learning_rate": 6.620621608288112e-05,
      "loss": 0.0,
      "step": 1420
    },
    {
      "epoch": 1.044566210045662,
      "grad_norm": NaN,
      "learning_rate": 6.59595461272817e-05,
      "loss": 0.0,
      "step": 1430
    },
    {
      "epoch": 1.0518721461187215,
      "grad_norm": NaN,
      "learning_rate": 6.57128761716823e-05,
      "loss": 0.0,
      "step": 1440
    },
    {
      "epoch": 1.059178082191781,
      "grad_norm": NaN,
      "learning_rate": 6.546620621608288e-05,
      "loss": 0.0,
      "step": 1450
    },
    {
      "epoch": 1.059178082191781,
      "eval_loss": NaN,
      "eval_runtime": 87.6838,
      "eval_samples_per_second": 120.547,
      "eval_steps_per_second": 7.538,
      "step": 1450
    },
    {
      "epoch": 1.0664840182648403,
      "grad_norm": NaN,
      "learning_rate": 6.521953626048347e-05,
      "loss": 0.0,
      "step": 1460
    },
    {
      "epoch": 1.0737899543378995,
      "grad_norm": NaN,
      "learning_rate": 6.497286630488407e-05,
      "loss": 0.0,
      "step": 1470
    },
    {
      "epoch": 1.0810958904109589,
      "grad_norm": NaN,
      "learning_rate": 6.472619634928467e-05,
      "loss": 0.0,
      "step": 1480
    },
    {
      "epoch": 1.0884018264840183,
      "grad_norm": NaN,
      "learning_rate": 6.447952639368525e-05,
      "loss": 0.0,
      "step": 1490
    },
    {
      "epoch": 1.0957077625570777,
      "grad_norm": NaN,
      "learning_rate": 6.423285643808585e-05,
      "loss": 0.0,
      "step": 1500
    },
    {
      "epoch": 1.0957077625570777,
      "eval_loss": NaN,
      "eval_runtime": 87.6114,
      "eval_samples_per_second": 120.646,
      "eval_steps_per_second": 7.545,
      "step": 1500
    },
    {
      "epoch": 1.103013698630137,
      "grad_norm": NaN,
      "learning_rate": 6.398618648248643e-05,
      "loss": 0.0,
      "step": 1510
    },
    {
      "epoch": 1.1103196347031963,
      "grad_norm": NaN,
      "learning_rate": 6.373951652688704e-05,
      "loss": 0.0,
      "step": 1520
    },
    {
      "epoch": 1.1176255707762557,
      "grad_norm": NaN,
      "learning_rate": 6.349284657128762e-05,
      "loss": 0.0,
      "step": 1530
    },
    {
      "epoch": 1.124931506849315,
      "grad_norm": NaN,
      "learning_rate": 6.324617661568822e-05,
      "loss": 0.0,
      "step": 1540
    },
    {
      "epoch": 1.1322374429223745,
      "grad_norm": NaN,
      "learning_rate": 6.29995066600888e-05,
      "loss": 0.0,
      "step": 1550
    },
    {
      "epoch": 1.1322374429223745,
      "eval_loss": NaN,
      "eval_runtime": 88.5181,
      "eval_samples_per_second": 119.411,
      "eval_steps_per_second": 7.467,
      "step": 1550
    },
    {
      "epoch": 1.139543378995434,
      "grad_norm": NaN,
      "learning_rate": 6.27528367044894e-05,
      "loss": 0.0,
      "step": 1560
    },
    {
      "epoch": 1.146849315068493,
      "grad_norm": NaN,
      "learning_rate": 6.250616674888998e-05,
      "loss": 0.0,
      "step": 1570
    },
    {
      "epoch": 1.1541552511415525,
      "grad_norm": NaN,
      "learning_rate": 6.225949679329059e-05,
      "loss": 0.0,
      "step": 1580
    },
    {
      "epoch": 1.161461187214612,
      "grad_norm": NaN,
      "learning_rate": 6.201282683769117e-05,
      "loss": 0.0,
      "step": 1590
    },
    {
      "epoch": 1.1687671232876713,
      "grad_norm": NaN,
      "learning_rate": 6.176615688209177e-05,
      "loss": 0.0,
      "step": 1600
    },
    {
      "epoch": 1.1687671232876713,
      "eval_loss": NaN,
      "eval_runtime": 89.8677,
      "eval_samples_per_second": 117.617,
      "eval_steps_per_second": 7.355,
      "step": 1600
    },
    {
      "epoch": 1.1760730593607307,
      "grad_norm": NaN,
      "learning_rate": 6.151948692649235e-05,
      "loss": 0.0,
      "step": 1610
    },
    {
      "epoch": 1.1833789954337899,
      "grad_norm": NaN,
      "learning_rate": 6.127281697089295e-05,
      "loss": 0.0,
      "step": 1620
    },
    {
      "epoch": 1.1906849315068493,
      "grad_norm": NaN,
      "learning_rate": 6.102614701529354e-05,
      "loss": 0.0,
      "step": 1630
    },
    {
      "epoch": 1.1979908675799087,
      "grad_norm": NaN,
      "learning_rate": 6.077947705969413e-05,
      "loss": 0.0,
      "step": 1640
    },
    {
      "epoch": 1.205296803652968,
      "grad_norm": NaN,
      "learning_rate": 6.053280710409472e-05,
      "loss": 0.0,
      "step": 1650
    },
    {
      "epoch": 1.205296803652968,
      "eval_loss": NaN,
      "eval_runtime": 90.1315,
      "eval_samples_per_second": 117.273,
      "eval_steps_per_second": 7.334,
      "step": 1650
    },
    {
      "epoch": 1.2126027397260275,
      "grad_norm": NaN,
      "learning_rate": 6.028613714849531e-05,
      "loss": 0.0,
      "step": 1660
    },
    {
      "epoch": 1.2199086757990867,
      "grad_norm": NaN,
      "learning_rate": 6.003946719289591e-05,
      "loss": 0.0,
      "step": 1670
    },
    {
      "epoch": 1.227214611872146,
      "grad_norm": NaN,
      "learning_rate": 5.9792797237296503e-05,
      "loss": 0.0,
      "step": 1680
    },
    {
      "epoch": 1.2345205479452055,
      "grad_norm": NaN,
      "learning_rate": 5.954612728169709e-05,
      "loss": 0.0,
      "step": 1690
    },
    {
      "epoch": 1.241826484018265,
      "grad_norm": NaN,
      "learning_rate": 5.929945732609768e-05,
      "loss": 0.0,
      "step": 1700
    },
    {
      "epoch": 1.241826484018265,
      "eval_loss": NaN,
      "eval_runtime": 87.7312,
      "eval_samples_per_second": 120.482,
      "eval_steps_per_second": 7.534,
      "step": 1700
    },
    {
      "epoch": 1.2491324200913243,
      "grad_norm": NaN,
      "learning_rate": 5.905278737049827e-05,
      "loss": 0.0,
      "step": 1710
    },
    {
      "epoch": 1.2564383561643835,
      "grad_norm": NaN,
      "learning_rate": 5.880611741489887e-05,
      "loss": 0.0,
      "step": 1720
    },
    {
      "epoch": 1.263744292237443,
      "grad_norm": NaN,
      "learning_rate": 5.855944745929946e-05,
      "loss": 0.0,
      "step": 1730
    },
    {
      "epoch": 1.2710502283105023,
      "grad_norm": NaN,
      "learning_rate": 5.8312777503700054e-05,
      "loss": 0.0,
      "step": 1740
    },
    {
      "epoch": 1.2783561643835617,
      "grad_norm": NaN,
      "learning_rate": 5.806610754810064e-05,
      "loss": 0.0,
      "step": 1750
    },
    {
      "epoch": 1.2783561643835617,
      "eval_loss": NaN,
      "eval_runtime": 87.6857,
      "eval_samples_per_second": 120.544,
      "eval_steps_per_second": 7.538,
      "step": 1750
    },
    {
      "epoch": 1.285662100456621,
      "grad_norm": NaN,
      "learning_rate": 5.781943759250123e-05,
      "loss": 0.0,
      "step": 1760
    },
    {
      "epoch": 1.2929680365296803,
      "grad_norm": NaN,
      "learning_rate": 5.757276763690183e-05,
      "loss": 0.0,
      "step": 1770
    },
    {
      "epoch": 1.3002739726027397,
      "grad_norm": NaN,
      "learning_rate": 5.732609768130242e-05,
      "loss": 0.0,
      "step": 1780
    },
    {
      "epoch": 1.307579908675799,
      "grad_norm": NaN,
      "learning_rate": 5.7079427725703014e-05,
      "loss": 0.0,
      "step": 1790
    },
    {
      "epoch": 1.3148858447488585,
      "grad_norm": NaN,
      "learning_rate": 5.6832757770103604e-05,
      "loss": 0.0,
      "step": 1800
    },
    {
      "epoch": 1.3148858447488585,
      "eval_loss": NaN,
      "eval_runtime": 87.7498,
      "eval_samples_per_second": 120.456,
      "eval_steps_per_second": 7.533,
      "step": 1800
    },
    {
      "epoch": 1.322191780821918,
      "grad_norm": NaN,
      "learning_rate": 5.658608781450419e-05,
      "loss": 0.0,
      "step": 1810
    },
    {
      "epoch": 1.329497716894977,
      "grad_norm": NaN,
      "learning_rate": 5.633941785890479e-05,
      "loss": 0.0,
      "step": 1820
    },
    {
      "epoch": 1.3368036529680365,
      "grad_norm": NaN,
      "learning_rate": 5.609274790330538e-05,
      "loss": 0.0,
      "step": 1830
    },
    {
      "epoch": 1.344109589041096,
      "grad_norm": NaN,
      "learning_rate": 5.5846077947705975e-05,
      "loss": 0.0,
      "step": 1840
    },
    {
      "epoch": 1.3514155251141553,
      "grad_norm": NaN,
      "learning_rate": 5.5599407992106565e-05,
      "loss": 0.0,
      "step": 1850
    },
    {
      "epoch": 1.3514155251141553,
      "eval_loss": NaN,
      "eval_runtime": 87.7348,
      "eval_samples_per_second": 120.477,
      "eval_steps_per_second": 7.534,
      "step": 1850
    },
    {
      "epoch": 1.3587214611872147,
      "grad_norm": NaN,
      "learning_rate": 5.5352738036507154e-05,
      "loss": 0.0,
      "step": 1860
    },
    {
      "epoch": 1.366027397260274,
      "grad_norm": NaN,
      "learning_rate": 5.5106068080907743e-05,
      "loss": 0.0,
      "step": 1870
    },
    {
      "epoch": 1.3733333333333333,
      "grad_norm": NaN,
      "learning_rate": 5.485939812530834e-05,
      "loss": 0.0,
      "step": 1880
    },
    {
      "epoch": 1.3806392694063927,
      "grad_norm": NaN,
      "learning_rate": 5.461272816970893e-05,
      "loss": 0.0,
      "step": 1890
    },
    {
      "epoch": 1.387945205479452,
      "grad_norm": NaN,
      "learning_rate": 5.4366058214109525e-05,
      "loss": 0.0,
      "step": 1900
    },
    {
      "epoch": 1.387945205479452,
      "eval_loss": NaN,
      "eval_runtime": 87.626,
      "eval_samples_per_second": 120.626,
      "eval_steps_per_second": 7.543,
      "step": 1900
    },
    {
      "epoch": 1.3952511415525115,
      "grad_norm": NaN,
      "learning_rate": 5.4119388258510115e-05,
      "loss": 0.0,
      "step": 1910
    },
    {
      "epoch": 1.4025570776255707,
      "grad_norm": NaN,
      "learning_rate": 5.3872718302910704e-05,
      "loss": 0.0,
      "step": 1920
    },
    {
      "epoch": 1.40986301369863,
      "grad_norm": NaN,
      "learning_rate": 5.36260483473113e-05,
      "loss": 0.0,
      "step": 1930
    },
    {
      "epoch": 1.4171689497716895,
      "grad_norm": NaN,
      "learning_rate": 5.337937839171189e-05,
      "loss": 0.0,
      "step": 1940
    },
    {
      "epoch": 1.424474885844749,
      "grad_norm": NaN,
      "learning_rate": 5.3132708436112486e-05,
      "loss": 0.0,
      "step": 1950
    },
    {
      "epoch": 1.424474885844749,
      "eval_loss": NaN,
      "eval_runtime": 89.8105,
      "eval_samples_per_second": 117.692,
      "eval_steps_per_second": 7.36,
      "step": 1950
    },
    {
      "epoch": 1.4317808219178083,
      "grad_norm": NaN,
      "learning_rate": 5.2886038480513075e-05,
      "loss": 0.0,
      "step": 1960
    },
    {
      "epoch": 1.4390867579908675,
      "grad_norm": NaN,
      "learning_rate": 5.2639368524913665e-05,
      "loss": 0.0,
      "step": 1970
    },
    {
      "epoch": 1.446392694063927,
      "grad_norm": NaN,
      "learning_rate": 5.239269856931426e-05,
      "loss": 0.0,
      "step": 1980
    },
    {
      "epoch": 1.4536986301369863,
      "grad_norm": NaN,
      "learning_rate": 5.214602861371485e-05,
      "loss": 0.0,
      "step": 1990
    },
    {
      "epoch": 1.4610045662100457,
      "grad_norm": NaN,
      "learning_rate": 5.189935865811545e-05,
      "loss": 0.0,
      "step": 2000
    },
    {
      "epoch": 1.4610045662100457,
      "eval_loss": NaN,
      "eval_runtime": 89.7513,
      "eval_samples_per_second": 117.77,
      "eval_steps_per_second": 7.365,
      "step": 2000
    },
    {
      "epoch": 1.4683105022831051,
      "grad_norm": NaN,
      "learning_rate": 5.1652688702516036e-05,
      "loss": 0.0,
      "step": 2010
    },
    {
      "epoch": 1.4756164383561643,
      "grad_norm": NaN,
      "learning_rate": 5.1406018746916626e-05,
      "loss": 0.0,
      "step": 2020
    },
    {
      "epoch": 1.4829223744292237,
      "grad_norm": NaN,
      "learning_rate": 5.115934879131722e-05,
      "loss": 0.0,
      "step": 2030
    },
    {
      "epoch": 1.490228310502283,
      "grad_norm": NaN,
      "learning_rate": 5.091267883571781e-05,
      "loss": 0.0,
      "step": 2040
    },
    {
      "epoch": 1.4975342465753425,
      "grad_norm": NaN,
      "learning_rate": 5.06660088801184e-05,
      "loss": 0.0,
      "step": 2050
    },
    {
      "epoch": 1.4975342465753425,
      "eval_loss": NaN,
      "eval_runtime": 87.5277,
      "eval_samples_per_second": 120.762,
      "eval_steps_per_second": 7.552,
      "step": 2050
    },
    {
      "epoch": 1.504840182648402,
      "grad_norm": NaN,
      "learning_rate": 5.0419338924519e-05,
      "loss": 0.0,
      "step": 2060
    },
    {
      "epoch": 1.512146118721461,
      "grad_norm": NaN,
      "learning_rate": 5.0172668968919586e-05,
      "loss": 0.0,
      "step": 2070
    },
    {
      "epoch": 1.5194520547945205,
      "grad_norm": NaN,
      "learning_rate": 4.992599901332018e-05,
      "loss": 0.0,
      "step": 2080
    },
    {
      "epoch": 1.52675799086758,
      "grad_norm": NaN,
      "learning_rate": 4.967932905772077e-05,
      "loss": 0.0,
      "step": 2090
    },
    {
      "epoch": 1.5340639269406393,
      "grad_norm": NaN,
      "learning_rate": 4.943265910212136e-05,
      "loss": 0.0,
      "step": 2100
    },
    {
      "epoch": 1.5340639269406393,
      "eval_loss": NaN,
      "eval_runtime": 87.4849,
      "eval_samples_per_second": 120.821,
      "eval_steps_per_second": 7.556,
      "step": 2100
    },
    {
      "epoch": 1.5413698630136987,
      "grad_norm": NaN,
      "learning_rate": 4.918598914652196e-05,
      "loss": 0.0,
      "step": 2110
    },
    {
      "epoch": 1.548675799086758,
      "grad_norm": NaN,
      "learning_rate": 4.893931919092255e-05,
      "loss": 0.0,
      "step": 2120
    },
    {
      "epoch": 1.5559817351598173,
      "grad_norm": NaN,
      "learning_rate": 4.869264923532314e-05,
      "loss": 0.0,
      "step": 2130
    },
    {
      "epoch": 1.5632876712328767,
      "grad_norm": NaN,
      "learning_rate": 4.844597927972373e-05,
      "loss": 0.0,
      "step": 2140
    },
    {
      "epoch": 1.5705936073059361,
      "grad_norm": NaN,
      "learning_rate": 4.819930932412432e-05,
      "loss": 0.0,
      "step": 2150
    },
    {
      "epoch": 1.5705936073059361,
      "eval_loss": NaN,
      "eval_runtime": 87.7089,
      "eval_samples_per_second": 120.512,
      "eval_steps_per_second": 7.536,
      "step": 2150
    },
    {
      "epoch": 1.5778995433789955,
      "grad_norm": NaN,
      "learning_rate": 4.795263936852492e-05,
      "loss": 0.0,
      "step": 2160
    },
    {
      "epoch": 1.5852054794520547,
      "grad_norm": NaN,
      "learning_rate": 4.770596941292551e-05,
      "loss": 0.0,
      "step": 2170
    },
    {
      "epoch": 1.592511415525114,
      "grad_norm": NaN,
      "learning_rate": 4.7459299457326104e-05,
      "loss": 0.0,
      "step": 2180
    },
    {
      "epoch": 1.5998173515981735,
      "grad_norm": NaN,
      "learning_rate": 4.7212629501726694e-05,
      "loss": 0.0,
      "step": 2190
    },
    {
      "epoch": 1.607123287671233,
      "grad_norm": NaN,
      "learning_rate": 4.696595954612728e-05,
      "loss": 0.0,
      "step": 2200
    },
    {
      "epoch": 1.607123287671233,
      "eval_loss": NaN,
      "eval_runtime": 87.4106,
      "eval_samples_per_second": 120.924,
      "eval_steps_per_second": 7.562,
      "step": 2200
    },
    {
      "epoch": 1.6144292237442923,
      "grad_norm": NaN,
      "learning_rate": 4.671928959052788e-05,
      "loss": 0.0,
      "step": 2210
    },
    {
      "epoch": 1.6217351598173515,
      "grad_norm": NaN,
      "learning_rate": 4.647261963492847e-05,
      "loss": 0.0,
      "step": 2220
    },
    {
      "epoch": 1.629041095890411,
      "grad_norm": NaN,
      "learning_rate": 4.622594967932906e-05,
      "loss": 0.0,
      "step": 2230
    },
    {
      "epoch": 1.6363470319634703,
      "grad_norm": NaN,
      "learning_rate": 4.5979279723729654e-05,
      "loss": 0.0,
      "step": 2240
    },
    {
      "epoch": 1.6436529680365297,
      "grad_norm": NaN,
      "learning_rate": 4.5732609768130244e-05,
      "loss": 0.0,
      "step": 2250
    },
    {
      "epoch": 1.6436529680365297,
      "eval_loss": NaN,
      "eval_runtime": 87.6352,
      "eval_samples_per_second": 120.614,
      "eval_steps_per_second": 7.543,
      "step": 2250
    },
    {
      "epoch": 1.6509589041095891,
      "grad_norm": NaN,
      "learning_rate": 4.548593981253084e-05,
      "loss": 0.0,
      "step": 2260
    },
    {
      "epoch": 1.6582648401826483,
      "grad_norm": NaN,
      "learning_rate": 4.523926985693143e-05,
      "loss": 0.0,
      "step": 2270
    },
    {
      "epoch": 1.6655707762557077,
      "grad_norm": NaN,
      "learning_rate": 4.499259990133202e-05,
      "loss": 0.0,
      "step": 2280
    },
    {
      "epoch": 1.6728767123287671,
      "grad_norm": NaN,
      "learning_rate": 4.4745929945732615e-05,
      "loss": 0.0,
      "step": 2290
    },
    {
      "epoch": 1.6801826484018265,
      "grad_norm": NaN,
      "learning_rate": 4.4499259990133204e-05,
      "loss": 0.0,
      "step": 2300
    },
    {
      "epoch": 1.6801826484018265,
      "eval_loss": NaN,
      "eval_runtime": 89.8795,
      "eval_samples_per_second": 117.602,
      "eval_steps_per_second": 7.354,
      "step": 2300
    },
    {
      "epoch": 1.687488584474886,
      "grad_norm": NaN,
      "learning_rate": 4.42525900345338e-05,
      "loss": 0.0,
      "step": 2310
    },
    {
      "epoch": 1.694794520547945,
      "grad_norm": NaN,
      "learning_rate": 4.400592007893439e-05,
      "loss": 0.0,
      "step": 2320
    },
    {
      "epoch": 1.7021004566210047,
      "grad_norm": NaN,
      "learning_rate": 4.375925012333498e-05,
      "loss": 0.0,
      "step": 2330
    },
    {
      "epoch": 1.709406392694064,
      "grad_norm": NaN,
      "learning_rate": 4.3512580167735576e-05,
      "loss": 0.0,
      "step": 2340
    },
    {
      "epoch": 1.7167123287671233,
      "grad_norm": NaN,
      "learning_rate": 4.3265910212136165e-05,
      "loss": 0.0,
      "step": 2350
    },
    {
      "epoch": 1.7167123287671233,
      "eval_loss": NaN,
      "eval_runtime": 89.9633,
      "eval_samples_per_second": 117.492,
      "eval_steps_per_second": 7.347,
      "step": 2350
    },
    {
      "epoch": 1.7240182648401827,
      "grad_norm": NaN,
      "learning_rate": 4.3019240256536755e-05,
      "loss": 0.0,
      "step": 2360
    },
    {
      "epoch": 1.731324200913242,
      "grad_norm": NaN,
      "learning_rate": 4.277257030093735e-05,
      "loss": 0.0,
      "step": 2370
    },
    {
      "epoch": 1.7386301369863015,
      "grad_norm": NaN,
      "learning_rate": 4.252590034533794e-05,
      "loss": 0.0,
      "step": 2380
    },
    {
      "epoch": 1.7459360730593607,
      "grad_norm": NaN,
      "learning_rate": 4.2279230389738537e-05,
      "loss": 0.0,
      "step": 2390
    },
    {
      "epoch": 1.7532420091324201,
      "grad_norm": NaN,
      "learning_rate": 4.2032560434139126e-05,
      "loss": 0.0,
      "step": 2400
    },
    {
      "epoch": 1.7532420091324201,
      "eval_loss": NaN,
      "eval_runtime": 89.7987,
      "eval_samples_per_second": 117.708,
      "eval_steps_per_second": 7.361,
      "step": 2400
    },
    {
      "epoch": 1.7605479452054795,
      "grad_norm": NaN,
      "learning_rate": 4.1785890478539715e-05,
      "loss": 0.0,
      "step": 2410
    },
    {
      "epoch": 1.7678538812785387,
      "grad_norm": NaN,
      "learning_rate": 4.153922052294031e-05,
      "loss": 0.0,
      "step": 2420
    },
    {
      "epoch": 1.7751598173515983,
      "grad_norm": NaN,
      "learning_rate": 4.12925505673409e-05,
      "loss": 0.0,
      "step": 2430
    },
    {
      "epoch": 1.7824657534246575,
      "grad_norm": NaN,
      "learning_rate": 4.10458806117415e-05,
      "loss": 0.0,
      "step": 2440
    },
    {
      "epoch": 1.789771689497717,
      "grad_norm": NaN,
      "learning_rate": 4.079921065614209e-05,
      "loss": 0.0,
      "step": 2450
    },
    {
      "epoch": 1.789771689497717,
      "eval_loss": NaN,
      "eval_runtime": 87.6424,
      "eval_samples_per_second": 120.604,
      "eval_steps_per_second": 7.542,
      "step": 2450
    },
    {
      "epoch": 1.7970776255707763,
      "grad_norm": NaN,
      "learning_rate": 4.0552540700542676e-05,
      "loss": 0.0,
      "step": 2460
    },
    {
      "epoch": 1.8043835616438355,
      "grad_norm": NaN,
      "learning_rate": 4.030587074494327e-05,
      "loss": 0.0,
      "step": 2470
    },
    {
      "epoch": 1.8116894977168951,
      "grad_norm": NaN,
      "learning_rate": 4.005920078934386e-05,
      "loss": 0.0,
      "step": 2480
    },
    {
      "epoch": 1.8189954337899543,
      "grad_norm": NaN,
      "learning_rate": 3.981253083374445e-05,
      "loss": 0.0,
      "step": 2490
    },
    {
      "epoch": 1.8263013698630137,
      "grad_norm": NaN,
      "learning_rate": 3.956586087814505e-05,
      "loss": 0.0,
      "step": 2500
    },
    {
      "epoch": 1.8263013698630137,
      "eval_loss": NaN,
      "eval_runtime": 87.5994,
      "eval_samples_per_second": 120.663,
      "eval_steps_per_second": 7.546,
      "step": 2500
    },
    {
      "epoch": 1.8336073059360731,
      "grad_norm": NaN,
      "learning_rate": 3.931919092254564e-05,
      "loss": 0.0,
      "step": 2510
    },
    {
      "epoch": 1.8409132420091323,
      "grad_norm": NaN,
      "learning_rate": 3.907252096694623e-05,
      "loss": 0.0,
      "step": 2520
    },
    {
      "epoch": 1.848219178082192,
      "grad_norm": NaN,
      "learning_rate": 3.882585101134682e-05,
      "loss": 0.0,
      "step": 2530
    },
    {
      "epoch": 1.8555251141552511,
      "grad_norm": NaN,
      "learning_rate": 3.857918105574741e-05,
      "loss": 0.0,
      "step": 2540
    },
    {
      "epoch": 1.8628310502283105,
      "grad_norm": NaN,
      "learning_rate": 3.833251110014801e-05,
      "loss": 0.0,
      "step": 2550
    },
    {
      "epoch": 1.8628310502283105,
      "eval_loss": NaN,
      "eval_runtime": 87.4443,
      "eval_samples_per_second": 120.877,
      "eval_steps_per_second": 7.559,
      "step": 2550
    },
    {
      "epoch": 1.87013698630137,
      "grad_norm": NaN,
      "learning_rate": 3.80858411445486e-05,
      "loss": 0.0,
      "step": 2560
    },
    {
      "epoch": 1.8774429223744291,
      "grad_norm": NaN,
      "learning_rate": 3.783917118894919e-05,
      "loss": 0.0,
      "step": 2570
    },
    {
      "epoch": 1.8847488584474887,
      "grad_norm": NaN,
      "learning_rate": 3.759250123334978e-05,
      "loss": 0.0,
      "step": 2580
    },
    {
      "epoch": 1.892054794520548,
      "grad_norm": NaN,
      "learning_rate": 3.734583127775037e-05,
      "loss": 0.0,
      "step": 2590
    },
    {
      "epoch": 1.8993607305936073,
      "grad_norm": NaN,
      "learning_rate": 3.709916132215097e-05,
      "loss": 0.0,
      "step": 2600
    },
    {
      "epoch": 1.8993607305936073,
      "eval_loss": NaN,
      "eval_runtime": 87.7012,
      "eval_samples_per_second": 120.523,
      "eval_steps_per_second": 7.537,
      "step": 2600
    },
    {
      "epoch": 1.9066666666666667,
      "grad_norm": NaN,
      "learning_rate": 3.685249136655156e-05,
      "loss": 0.0,
      "step": 2610
    },
    {
      "epoch": 1.913972602739726,
      "grad_norm": NaN,
      "learning_rate": 3.660582141095215e-05,
      "loss": 0.0,
      "step": 2620
    },
    {
      "epoch": 1.9212785388127855,
      "grad_norm": NaN,
      "learning_rate": 3.6359151455352744e-05,
      "loss": 0.0,
      "step": 2630
    },
    {
      "epoch": 1.9285844748858447,
      "grad_norm": NaN,
      "learning_rate": 3.6112481499753333e-05,
      "loss": 0.0,
      "step": 2640
    },
    {
      "epoch": 1.9358904109589041,
      "grad_norm": NaN,
      "learning_rate": 3.586581154415392e-05,
      "loss": 0.0,
      "step": 2650
    },
    {
      "epoch": 1.9358904109589041,
      "eval_loss": NaN,
      "eval_runtime": 87.5232,
      "eval_samples_per_second": 120.768,
      "eval_steps_per_second": 7.552,
      "step": 2650
    },
    {
      "epoch": 1.9431963470319635,
      "grad_norm": NaN,
      "learning_rate": 3.561914158855452e-05,
      "loss": 0.0,
      "step": 2660
    },
    {
      "epoch": 1.9505022831050227,
      "grad_norm": NaN,
      "learning_rate": 3.537247163295511e-05,
      "loss": 0.0,
      "step": 2670
    },
    {
      "epoch": 1.9578082191780823,
      "grad_norm": NaN,
      "learning_rate": 3.5125801677355705e-05,
      "loss": 0.0,
      "step": 2680
    },
    {
      "epoch": 1.9651141552511415,
      "grad_norm": NaN,
      "learning_rate": 3.4879131721756294e-05,
      "loss": 0.0,
      "step": 2690
    },
    {
      "epoch": 1.972420091324201,
      "grad_norm": NaN,
      "learning_rate": 3.4632461766156884e-05,
      "loss": 0.0,
      "step": 2700
    },
    {
      "epoch": 1.972420091324201,
      "eval_loss": NaN,
      "eval_runtime": 87.6204,
      "eval_samples_per_second": 120.634,
      "eval_steps_per_second": 7.544,
      "step": 2700
    },
    {
      "epoch": 1.9797260273972603,
      "grad_norm": NaN,
      "learning_rate": 3.438579181055748e-05,
      "loss": 0.0,
      "step": 2710
    },
    {
      "epoch": 1.9870319634703195,
      "grad_norm": NaN,
      "learning_rate": 3.413912185495807e-05,
      "loss": 0.0,
      "step": 2720
    },
    {
      "epoch": 1.9943378995433791,
      "grad_norm": NaN,
      "learning_rate": 3.389245189935866e-05,
      "loss": 0.0,
      "step": 2730
    },
    {
      "epoch": 2.0014611872146117,
      "grad_norm": NaN,
      "learning_rate": 3.3645781943759255e-05,
      "loss": 0.0,
      "step": 2740
    },
    {
      "epoch": 2.0087671232876714,
      "grad_norm": NaN,
      "learning_rate": 3.3399111988159844e-05,
      "loss": 0.0,
      "step": 2750
    },
    {
      "epoch": 2.0087671232876714,
      "eval_loss": NaN,
      "eval_runtime": 89.786,
      "eval_samples_per_second": 117.724,
      "eval_steps_per_second": 7.362,
      "step": 2750
    },
    {
      "epoch": 2.0160730593607306,
      "grad_norm": NaN,
      "learning_rate": 3.315244203256044e-05,
      "loss": 0.0,
      "step": 2760
    },
    {
      "epoch": 2.0233789954337897,
      "grad_norm": NaN,
      "learning_rate": 3.290577207696103e-05,
      "loss": 0.0,
      "step": 2770
    },
    {
      "epoch": 2.0306849315068494,
      "grad_norm": NaN,
      "learning_rate": 3.265910212136162e-05,
      "loss": 0.0,
      "step": 2780
    },
    {
      "epoch": 2.0379908675799085,
      "grad_norm": NaN,
      "learning_rate": 3.2412432165762216e-05,
      "loss": 0.0,
      "step": 2790
    },
    {
      "epoch": 2.045296803652968,
      "grad_norm": NaN,
      "learning_rate": 3.2165762210162805e-05,
      "loss": 0.0,
      "step": 2800
    },
    {
      "epoch": 2.045296803652968,
      "eval_loss": NaN,
      "eval_runtime": 89.6927,
      "eval_samples_per_second": 117.847,
      "eval_steps_per_second": 7.37,
      "step": 2800
    },
    {
      "epoch": 2.0526027397260274,
      "grad_norm": NaN,
      "learning_rate": 3.1919092254563395e-05,
      "loss": 0.0,
      "step": 2810
    },
    {
      "epoch": 2.0599086757990865,
      "grad_norm": NaN,
      "learning_rate": 3.167242229896399e-05,
      "loss": 0.0,
      "step": 2820
    },
    {
      "epoch": 2.067214611872146,
      "grad_norm": NaN,
      "learning_rate": 3.142575234336458e-05,
      "loss": 0.0,
      "step": 2830
    },
    {
      "epoch": 2.0745205479452054,
      "grad_norm": NaN,
      "learning_rate": 3.1179082387765176e-05,
      "loss": 0.0,
      "step": 2840
    },
    {
      "epoch": 2.081826484018265,
      "grad_norm": NaN,
      "learning_rate": 3.0932412432165766e-05,
      "loss": 0.0,
      "step": 2850
    },
    {
      "epoch": 2.081826484018265,
      "eval_loss": NaN,
      "eval_runtime": 89.0102,
      "eval_samples_per_second": 118.75,
      "eval_steps_per_second": 7.426,
      "step": 2850
    },
    {
      "epoch": 2.089132420091324,
      "grad_norm": NaN,
      "learning_rate": 3.0685742476566355e-05,
      "loss": 0.0,
      "step": 2860
    },
    {
      "epoch": 2.0964383561643833,
      "grad_norm": NaN,
      "learning_rate": 3.0439072520966948e-05,
      "loss": 0.0,
      "step": 2870
    },
    {
      "epoch": 2.103744292237443,
      "grad_norm": NaN,
      "learning_rate": 3.0192402565367538e-05,
      "loss": 0.0,
      "step": 2880
    },
    {
      "epoch": 2.111050228310502,
      "grad_norm": NaN,
      "learning_rate": 2.994573260976813e-05,
      "loss": 0.0,
      "step": 2890
    },
    {
      "epoch": 2.118356164383562,
      "grad_norm": NaN,
      "learning_rate": 2.9699062654168723e-05,
      "loss": 0.0,
      "step": 2900
    },
    {
      "epoch": 2.118356164383562,
      "eval_loss": NaN,
      "eval_runtime": 87.4632,
      "eval_samples_per_second": 120.851,
      "eval_steps_per_second": 7.557,
      "step": 2900
    },
    {
      "epoch": 2.125662100456621,
      "grad_norm": NaN,
      "learning_rate": 2.9452392698569313e-05,
      "loss": 0.0,
      "step": 2910
    },
    {
      "epoch": 2.1329680365296806,
      "grad_norm": NaN,
      "learning_rate": 2.920572274296991e-05,
      "loss": 0.0,
      "step": 2920
    },
    {
      "epoch": 2.1402739726027398,
      "grad_norm": NaN,
      "learning_rate": 2.89590527873705e-05,
      "loss": 0.0,
      "step": 2930
    },
    {
      "epoch": 2.147579908675799,
      "grad_norm": NaN,
      "learning_rate": 2.871238283177109e-05,
      "loss": 0.0,
      "step": 2940
    },
    {
      "epoch": 2.1548858447488586,
      "grad_norm": NaN,
      "learning_rate": 2.8465712876171684e-05,
      "loss": 0.0,
      "step": 2950
    },
    {
      "epoch": 2.1548858447488586,
      "eval_loss": NaN,
      "eval_runtime": 87.3497,
      "eval_samples_per_second": 121.008,
      "eval_steps_per_second": 7.567,
      "step": 2950
    },
    {
      "epoch": 2.1621917808219178,
      "grad_norm": NaN,
      "learning_rate": 2.8219042920572273e-05,
      "loss": 0.0,
      "step": 2960
    },
    {
      "epoch": 2.169497716894977,
      "grad_norm": NaN,
      "learning_rate": 2.7972372964972866e-05,
      "loss": 0.0,
      "step": 2970
    },
    {
      "epoch": 2.1768036529680366,
      "grad_norm": NaN,
      "learning_rate": 2.772570300937346e-05,
      "loss": 0.0,
      "step": 2980
    },
    {
      "epoch": 2.1841095890410958,
      "grad_norm": NaN,
      "learning_rate": 2.7479033053774052e-05,
      "loss": 0.0,
      "step": 2990
    },
    {
      "epoch": 2.1914155251141554,
      "grad_norm": NaN,
      "learning_rate": 2.7232363098174645e-05,
      "loss": 0.0,
      "step": 3000
    },
    {
      "epoch": 2.1914155251141554,
      "eval_loss": NaN,
      "eval_runtime": 87.4657,
      "eval_samples_per_second": 120.847,
      "eval_steps_per_second": 7.557,
      "step": 3000
    },
    {
      "epoch": 2.1987214611872146,
      "grad_norm": NaN,
      "learning_rate": 2.6985693142575234e-05,
      "loss": 0.0,
      "step": 3010
    },
    {
      "epoch": 2.206027397260274,
      "grad_norm": NaN,
      "learning_rate": 2.6739023186975827e-05,
      "loss": 0.0,
      "step": 3020
    },
    {
      "epoch": 2.2133333333333334,
      "grad_norm": NaN,
      "learning_rate": 2.649235323137642e-05,
      "loss": 0.0,
      "step": 3030
    },
    {
      "epoch": 2.2206392694063926,
      "grad_norm": NaN,
      "learning_rate": 2.6245683275777013e-05,
      "loss": 0.0,
      "step": 3040
    },
    {
      "epoch": 2.227945205479452,
      "grad_norm": NaN,
      "learning_rate": 2.5999013320177602e-05,
      "loss": 0.0,
      "step": 3050
    },
    {
      "epoch": 2.227945205479452,
      "eval_loss": NaN,
      "eval_runtime": 87.5429,
      "eval_samples_per_second": 120.741,
      "eval_steps_per_second": 7.551,
      "step": 3050
    },
    {
      "epoch": 2.2352511415525114,
      "grad_norm": NaN,
      "learning_rate": 2.5752343364578195e-05,
      "loss": 0.0,
      "step": 3060
    },
    {
      "epoch": 2.2425570776255705,
      "grad_norm": NaN,
      "learning_rate": 2.5505673408978788e-05,
      "loss": 0.0,
      "step": 3070
    },
    {
      "epoch": 2.24986301369863,
      "grad_norm": NaN,
      "learning_rate": 2.525900345337938e-05,
      "loss": 0.0,
      "step": 3080
    },
    {
      "epoch": 2.2571689497716894,
      "grad_norm": NaN,
      "learning_rate": 2.501233349777997e-05,
      "loss": 0.0,
      "step": 3090
    },
    {
      "epoch": 2.264474885844749,
      "grad_norm": NaN,
      "learning_rate": 2.4765663542180563e-05,
      "loss": 0.0,
      "step": 3100
    },
    {
      "epoch": 2.264474885844749,
      "eval_loss": NaN,
      "eval_runtime": 87.4603,
      "eval_samples_per_second": 120.855,
      "eval_steps_per_second": 7.558,
      "step": 3100
    },
    {
      "epoch": 2.271780821917808,
      "grad_norm": NaN,
      "learning_rate": 2.4518993586581156e-05,
      "loss": 0.0,
      "step": 3110
    },
    {
      "epoch": 2.279086757990868,
      "grad_norm": NaN,
      "learning_rate": 2.427232363098175e-05,
      "loss": 0.0,
      "step": 3120
    },
    {
      "epoch": 2.286392694063927,
      "grad_norm": NaN,
      "learning_rate": 2.402565367538234e-05,
      "loss": 0.0,
      "step": 3130
    },
    {
      "epoch": 2.293698630136986,
      "grad_norm": NaN,
      "learning_rate": 2.377898371978293e-05,
      "loss": 0.0,
      "step": 3140
    },
    {
      "epoch": 2.301004566210046,
      "grad_norm": NaN,
      "learning_rate": 2.3532313764183524e-05,
      "loss": 0.0,
      "step": 3150
    },
    {
      "epoch": 2.301004566210046,
      "eval_loss": NaN,
      "eval_runtime": 89.2945,
      "eval_samples_per_second": 118.372,
      "eval_steps_per_second": 7.402,
      "step": 3150
    },
    {
      "epoch": 2.308310502283105,
      "grad_norm": NaN,
      "learning_rate": 2.3285643808584116e-05,
      "loss": 0.0,
      "step": 3160
    },
    {
      "epoch": 2.315616438356164,
      "grad_norm": NaN,
      "learning_rate": 2.303897385298471e-05,
      "loss": 0.0,
      "step": 3170
    },
    {
      "epoch": 2.322922374429224,
      "grad_norm": NaN,
      "learning_rate": 2.27923038973853e-05,
      "loss": 0.0,
      "step": 3180
    },
    {
      "epoch": 2.330228310502283,
      "grad_norm": NaN,
      "learning_rate": 2.254563394178589e-05,
      "loss": 0.0,
      "step": 3190
    },
    {
      "epoch": 2.3375342465753426,
      "grad_norm": NaN,
      "learning_rate": 2.2298963986186484e-05,
      "loss": 0.0,
      "step": 3200
    },
    {
      "epoch": 2.3375342465753426,
      "eval_loss": NaN,
      "eval_runtime": 89.6497,
      "eval_samples_per_second": 117.903,
      "eval_steps_per_second": 7.373,
      "step": 3200
    },
    {
      "epoch": 2.3448401826484018,
      "grad_norm": NaN,
      "learning_rate": 2.2052294030587077e-05,
      "loss": 0.0,
      "step": 3210
    },
    {
      "epoch": 2.3521461187214614,
      "grad_norm": NaN,
      "learning_rate": 2.180562407498767e-05,
      "loss": 0.0,
      "step": 3220
    },
    {
      "epoch": 2.3594520547945206,
      "grad_norm": NaN,
      "learning_rate": 2.155895411938826e-05,
      "loss": 0.0,
      "step": 3230
    },
    {
      "epoch": 2.3667579908675798,
      "grad_norm": NaN,
      "learning_rate": 2.1312284163788852e-05,
      "loss": 0.0,
      "step": 3240
    },
    {
      "epoch": 2.3740639269406394,
      "grad_norm": NaN,
      "learning_rate": 2.1065614208189445e-05,
      "loss": 0.0,
      "step": 3250
    },
    {
      "epoch": 2.3740639269406394,
      "eval_loss": NaN,
      "eval_runtime": 89.7652,
      "eval_samples_per_second": 117.752,
      "eval_steps_per_second": 7.364,
      "step": 3250
    },
    {
      "epoch": 2.3813698630136986,
      "grad_norm": NaN,
      "learning_rate": 2.0818944252590038e-05,
      "loss": 0.0,
      "step": 3260
    },
    {
      "epoch": 2.3886757990867578,
      "grad_norm": NaN,
      "learning_rate": 2.0572274296990627e-05,
      "loss": 0.0,
      "step": 3270
    },
    {
      "epoch": 2.3959817351598174,
      "grad_norm": NaN,
      "learning_rate": 2.032560434139122e-05,
      "loss": 0.0,
      "step": 3280
    },
    {
      "epoch": 2.4032876712328766,
      "grad_norm": NaN,
      "learning_rate": 2.0078934385791813e-05,
      "loss": 0.0,
      "step": 3290
    },
    {
      "epoch": 2.410593607305936,
      "grad_norm": NaN,
      "learning_rate": 1.9832264430192406e-05,
      "loss": 0.0,
      "step": 3300
    },
    {
      "epoch": 2.410593607305936,
      "eval_loss": NaN,
      "eval_runtime": 88.5138,
      "eval_samples_per_second": 119.416,
      "eval_steps_per_second": 7.468,
      "step": 3300
    },
    {
      "epoch": 2.4178995433789954,
      "grad_norm": NaN,
      "learning_rate": 1.9585594474592995e-05,
      "loss": 0.0,
      "step": 3310
    },
    {
      "epoch": 2.425205479452055,
      "grad_norm": NaN,
      "learning_rate": 1.9338924518993588e-05,
      "loss": 0.0,
      "step": 3320
    },
    {
      "epoch": 2.432511415525114,
      "grad_norm": NaN,
      "learning_rate": 1.909225456339418e-05,
      "loss": 0.0,
      "step": 3330
    },
    {
      "epoch": 2.4398173515981734,
      "grad_norm": NaN,
      "learning_rate": 1.8845584607794774e-05,
      "loss": 0.0,
      "step": 3340
    },
    {
      "epoch": 2.447123287671233,
      "grad_norm": NaN,
      "learning_rate": 1.8598914652195363e-05,
      "loss": 0.0,
      "step": 3350
    },
    {
      "epoch": 2.447123287671233,
      "eval_loss": NaN,
      "eval_runtime": 87.334,
      "eval_samples_per_second": 121.03,
      "eval_steps_per_second": 7.569,
      "step": 3350
    },
    {
      "epoch": 2.454429223744292,
      "grad_norm": NaN,
      "learning_rate": 1.8352244696595956e-05,
      "loss": 0.0,
      "step": 3360
    },
    {
      "epoch": 2.4617351598173514,
      "grad_norm": NaN,
      "learning_rate": 1.810557474099655e-05,
      "loss": 0.0,
      "step": 3370
    },
    {
      "epoch": 2.469041095890411,
      "grad_norm": NaN,
      "learning_rate": 1.785890478539714e-05,
      "loss": 0.0,
      "step": 3380
    },
    {
      "epoch": 2.47634703196347,
      "grad_norm": NaN,
      "learning_rate": 1.761223482979773e-05,
      "loss": 0.0,
      "step": 3390
    },
    {
      "epoch": 2.48365296803653,
      "grad_norm": NaN,
      "learning_rate": 1.7365564874198324e-05,
      "loss": 0.0,
      "step": 3400
    },
    {
      "epoch": 2.48365296803653,
      "eval_loss": NaN,
      "eval_runtime": 87.2333,
      "eval_samples_per_second": 121.169,
      "eval_steps_per_second": 7.577,
      "step": 3400
    },
    {
      "epoch": 2.490958904109589,
      "grad_norm": NaN,
      "learning_rate": 1.7118894918598917e-05,
      "loss": 0.0,
      "step": 3410
    },
    {
      "epoch": 2.4982648401826486,
      "grad_norm": NaN,
      "learning_rate": 1.687222496299951e-05,
      "loss": 0.0,
      "step": 3420
    },
    {
      "epoch": 2.505570776255708,
      "grad_norm": NaN,
      "learning_rate": 1.66255550074001e-05,
      "loss": 0.0,
      "step": 3430
    },
    {
      "epoch": 2.512876712328767,
      "grad_norm": NaN,
      "learning_rate": 1.6378885051800692e-05,
      "loss": 0.0,
      "step": 3440
    },
    {
      "epoch": 2.5201826484018266,
      "grad_norm": NaN,
      "learning_rate": 1.6132215096201285e-05,
      "loss": 0.0,
      "step": 3450
    },
    {
      "epoch": 2.5201826484018266,
      "eval_loss": NaN,
      "eval_runtime": 87.3114,
      "eval_samples_per_second": 121.061,
      "eval_steps_per_second": 7.571,
      "step": 3450
    },
    {
      "epoch": 2.527488584474886,
      "grad_norm": NaN,
      "learning_rate": 1.5885545140601878e-05,
      "loss": 0.0,
      "step": 3460
    },
    {
      "epoch": 2.534794520547945,
      "grad_norm": NaN,
      "learning_rate": 1.5638875185002467e-05,
      "loss": 0.0,
      "step": 3470
    },
    {
      "epoch": 2.5421004566210046,
      "grad_norm": NaN,
      "learning_rate": 1.539220522940306e-05,
      "loss": 0.0,
      "step": 3480
    },
    {
      "epoch": 2.5494063926940638,
      "grad_norm": NaN,
      "learning_rate": 1.5145535273803651e-05,
      "loss": 0.0,
      "step": 3490
    },
    {
      "epoch": 2.5567123287671234,
      "grad_norm": NaN,
      "learning_rate": 1.4898865318204244e-05,
      "loss": 0.0,
      "step": 3500
    },
    {
      "epoch": 2.5567123287671234,
      "eval_loss": NaN,
      "eval_runtime": 87.2842,
      "eval_samples_per_second": 121.099,
      "eval_steps_per_second": 7.573,
      "step": 3500
    },
    {
      "epoch": 2.5640182648401826,
      "grad_norm": NaN,
      "learning_rate": 1.4652195362604835e-05,
      "loss": 0.0,
      "step": 3510
    },
    {
      "epoch": 2.571324200913242,
      "grad_norm": NaN,
      "learning_rate": 1.4405525407005426e-05,
      "loss": 0.0,
      "step": 3520
    },
    {
      "epoch": 2.5786301369863014,
      "grad_norm": NaN,
      "learning_rate": 1.4158855451406019e-05,
      "loss": 0.0,
      "step": 3530
    },
    {
      "epoch": 2.5859360730593606,
      "grad_norm": NaN,
      "learning_rate": 1.3912185495806612e-05,
      "loss": 0.0,
      "step": 3540
    },
    {
      "epoch": 2.59324200913242,
      "grad_norm": NaN,
      "learning_rate": 1.3665515540207203e-05,
      "loss": 0.0,
      "step": 3550
    },
    {
      "epoch": 2.59324200913242,
      "eval_loss": NaN,
      "eval_runtime": 87.1762,
      "eval_samples_per_second": 121.249,
      "eval_steps_per_second": 7.582,
      "step": 3550
    },
    {
      "epoch": 2.6005479452054794,
      "grad_norm": NaN,
      "learning_rate": 1.3418845584607796e-05,
      "loss": 0.0,
      "step": 3560
    },
    {
      "epoch": 2.6078538812785386,
      "grad_norm": NaN,
      "learning_rate": 1.3172175629008387e-05,
      "loss": 0.0,
      "step": 3570
    },
    {
      "epoch": 2.615159817351598,
      "grad_norm": NaN,
      "learning_rate": 1.292550567340898e-05,
      "loss": 0.0,
      "step": 3580
    },
    {
      "epoch": 2.6224657534246574,
      "grad_norm": NaN,
      "learning_rate": 1.267883571780957e-05,
      "loss": 0.0,
      "step": 3590
    },
    {
      "epoch": 2.629771689497717,
      "grad_norm": NaN,
      "learning_rate": 1.2432165762210164e-05,
      "loss": 0.0,
      "step": 3600
    },
    {
      "epoch": 2.629771689497717,
      "eval_loss": NaN,
      "eval_runtime": 89.0981,
      "eval_samples_per_second": 118.633,
      "eval_steps_per_second": 7.419,
      "step": 3600
    },
    {
      "epoch": 2.637077625570776,
      "grad_norm": NaN,
      "learning_rate": 1.2185495806610755e-05,
      "loss": 0.0,
      "step": 3610
    },
    {
      "epoch": 2.644383561643836,
      "grad_norm": NaN,
      "learning_rate": 1.1938825851011348e-05,
      "loss": 0.0,
      "step": 3620
    },
    {
      "epoch": 2.651689497716895,
      "grad_norm": NaN,
      "learning_rate": 1.169215589541194e-05,
      "loss": 0.0,
      "step": 3630
    },
    {
      "epoch": 2.658995433789954,
      "grad_norm": NaN,
      "learning_rate": 1.1445485939812531e-05,
      "loss": 0.0,
      "step": 3640
    },
    {
      "epoch": 2.666301369863014,
      "grad_norm": NaN,
      "learning_rate": 1.1198815984213124e-05,
      "loss": 0.0,
      "step": 3650
    },
    {
      "epoch": 2.666301369863014,
      "eval_loss": NaN,
      "eval_runtime": 89.3812,
      "eval_samples_per_second": 118.258,
      "eval_steps_per_second": 7.395,
      "step": 3650
    },
    {
      "epoch": 2.673607305936073,
      "grad_norm": NaN,
      "learning_rate": 1.0952146028613715e-05,
      "loss": 0.0,
      "step": 3660
    },
    {
      "epoch": 2.680913242009132,
      "grad_norm": NaN,
      "learning_rate": 1.0705476073014308e-05,
      "loss": 0.0,
      "step": 3670
    },
    {
      "epoch": 2.688219178082192,
      "grad_norm": NaN,
      "learning_rate": 1.04588061174149e-05,
      "loss": 0.0,
      "step": 3680
    },
    {
      "epoch": 2.695525114155251,
      "grad_norm": NaN,
      "learning_rate": 1.0212136161815492e-05,
      "loss": 0.0,
      "step": 3690
    },
    {
      "epoch": 2.7028310502283106,
      "grad_norm": NaN,
      "learning_rate": 9.965466206216083e-06,
      "loss": 0.0,
      "step": 3700
    },
    {
      "epoch": 2.7028310502283106,
      "eval_loss": NaN,
      "eval_runtime": 89.3655,
      "eval_samples_per_second": 118.278,
      "eval_steps_per_second": 7.397,
      "step": 3700
    },
    {
      "epoch": 2.71013698630137,
      "grad_norm": NaN,
      "learning_rate": 9.718796250616676e-06,
      "loss": 0.0,
      "step": 3710
    },
    {
      "epoch": 2.7174429223744294,
      "grad_norm": NaN,
      "learning_rate": 9.472126295017267e-06,
      "loss": 0.0,
      "step": 3720
    },
    {
      "epoch": 2.7247488584474886,
      "grad_norm": NaN,
      "learning_rate": 9.22545633941786e-06,
      "loss": 0.0,
      "step": 3730
    },
    {
      "epoch": 2.732054794520548,
      "grad_norm": NaN,
      "learning_rate": 8.978786383818451e-06,
      "loss": 0.0,
      "step": 3740
    },
    {
      "epoch": 2.7393607305936074,
      "grad_norm": NaN,
      "learning_rate": 8.732116428219044e-06,
      "loss": 0.0,
      "step": 3750
    },
    {
      "epoch": 2.7393607305936074,
      "eval_loss": NaN,
      "eval_runtime": 86.8786,
      "eval_samples_per_second": 121.664,
      "eval_steps_per_second": 7.608,
      "step": 3750
    },
    {
      "epoch": 2.7466666666666666,
      "grad_norm": NaN,
      "learning_rate": 8.485446472619635e-06,
      "loss": 0.0,
      "step": 3760
    },
    {
      "epoch": 2.7539726027397258,
      "grad_norm": NaN,
      "learning_rate": 8.238776517020228e-06,
      "loss": 0.0,
      "step": 3770
    },
    {
      "epoch": 2.7612785388127854,
      "grad_norm": NaN,
      "learning_rate": 7.99210656142082e-06,
      "loss": 0.0,
      "step": 3780
    },
    {
      "epoch": 2.768584474885845,
      "grad_norm": NaN,
      "learning_rate": 7.745436605821412e-06,
      "loss": 0.0,
      "step": 3790
    },
    {
      "epoch": 2.775890410958904,
      "grad_norm": NaN,
      "learning_rate": 7.498766650222003e-06,
      "loss": 0.0,
      "step": 3800
    },
    {
      "epoch": 2.775890410958904,
      "eval_loss": NaN,
      "eval_runtime": 87.0328,
      "eval_samples_per_second": 121.449,
      "eval_steps_per_second": 7.595,
      "step": 3800
    },
    {
      "epoch": 2.7831963470319634,
      "grad_norm": NaN,
      "learning_rate": 7.252096694622595e-06,
      "loss": 0.0,
      "step": 3810
    },
    {
      "epoch": 2.790502283105023,
      "grad_norm": NaN,
      "learning_rate": 7.005426739023187e-06,
      "loss": 0.0,
      "step": 3820
    },
    {
      "epoch": 2.797808219178082,
      "grad_norm": NaN,
      "learning_rate": 6.758756783423779e-06,
      "loss": 0.0,
      "step": 3830
    },
    {
      "epoch": 2.8051141552511414,
      "grad_norm": NaN,
      "learning_rate": 6.512086827824371e-06,
      "loss": 0.0,
      "step": 3840
    },
    {
      "epoch": 2.812420091324201,
      "grad_norm": NaN,
      "learning_rate": 6.265416872224963e-06,
      "loss": 0.0,
      "step": 3850
    },
    {
      "epoch": 2.812420091324201,
      "eval_loss": NaN,
      "eval_runtime": 86.9228,
      "eval_samples_per_second": 121.602,
      "eval_steps_per_second": 7.604,
      "step": 3850
    },
    {
      "epoch": 2.81972602739726,
      "grad_norm": NaN,
      "learning_rate": 6.018746916625555e-06,
      "loss": 0.0,
      "step": 3860
    },
    {
      "epoch": 2.8270319634703194,
      "grad_norm": NaN,
      "learning_rate": 5.772076961026148e-06,
      "loss": 0.0,
      "step": 3870
    },
    {
      "epoch": 2.834337899543379,
      "grad_norm": NaN,
      "learning_rate": 5.52540700542674e-06,
      "loss": 0.0,
      "step": 3880
    },
    {
      "epoch": 2.8416438356164386,
      "grad_norm": NaN,
      "learning_rate": 5.278737049827332e-06,
      "loss": 0.0,
      "step": 3890
    },
    {
      "epoch": 2.848949771689498,
      "grad_norm": NaN,
      "learning_rate": 5.032067094227924e-06,
      "loss": 0.0,
      "step": 3900
    },
    {
      "epoch": 2.848949771689498,
      "eval_loss": NaN,
      "eval_runtime": 86.8846,
      "eval_samples_per_second": 121.656,
      "eval_steps_per_second": 7.608,
      "step": 3900
    },
    {
      "epoch": 2.856255707762557,
      "grad_norm": NaN,
      "learning_rate": 4.785397138628516e-06,
      "loss": 0.0,
      "step": 3910
    },
    {
      "epoch": 2.8635616438356166,
      "grad_norm": NaN,
      "learning_rate": 4.538727183029108e-06,
      "loss": 0.0,
      "step": 3920
    },
    {
      "epoch": 2.870867579908676,
      "grad_norm": NaN,
      "learning_rate": 4.2920572274297e-06,
      "loss": 0.0,
      "step": 3930
    },
    {
      "epoch": 2.878173515981735,
      "grad_norm": NaN,
      "learning_rate": 4.045387271830292e-06,
      "loss": 0.0,
      "step": 3940
    },
    {
      "epoch": 2.8854794520547946,
      "grad_norm": NaN,
      "learning_rate": 3.7987173162308833e-06,
      "loss": 0.0,
      "step": 3950
    },
    {
      "epoch": 2.8854794520547946,
      "eval_loss": NaN,
      "eval_runtime": 87.2057,
      "eval_samples_per_second": 121.208,
      "eval_steps_per_second": 7.58,
      "step": 3950
    },
    {
      "epoch": 2.892785388127854,
      "grad_norm": NaN,
      "learning_rate": 3.5520473606314752e-06,
      "loss": 0.0,
      "step": 3960
    },
    {
      "epoch": 2.900091324200913,
      "grad_norm": NaN,
      "learning_rate": 3.3053774050320672e-06,
      "loss": 0.0,
      "step": 3970
    },
    {
      "epoch": 2.9073972602739726,
      "grad_norm": NaN,
      "learning_rate": 3.058707449432659e-06,
      "loss": 0.0,
      "step": 3980
    },
    {
      "epoch": 2.9147031963470322,
      "grad_norm": NaN,
      "learning_rate": 2.812037493833251e-06,
      "loss": 0.0,
      "step": 3990
    },
    {
      "epoch": 2.9220091324200914,
      "grad_norm": NaN,
      "learning_rate": 2.5653675382338436e-06,
      "loss": 0.0,
      "step": 4000
    },
    {
      "epoch": 2.9220091324200914,
      "eval_loss": NaN,
      "eval_runtime": 78.7041,
      "eval_samples_per_second": 134.301,
      "eval_steps_per_second": 8.399,
      "step": 4000
    },
    {
      "epoch": 2.9293150684931506,
      "grad_norm": NaN,
      "learning_rate": 2.3186975826344356e-06,
      "loss": 0.0,
      "step": 4010
    },
    {
      "epoch": 2.9366210045662102,
      "grad_norm": NaN,
      "learning_rate": 2.0720276270350275e-06,
      "loss": 0.0,
      "step": 4020
    },
    {
      "epoch": 2.9439269406392694,
      "grad_norm": NaN,
      "learning_rate": 1.8253576714356193e-06,
      "loss": 0.0,
      "step": 4030
    },
    {
      "epoch": 2.9512328767123286,
      "grad_norm": NaN,
      "learning_rate": 1.5786877158362113e-06,
      "loss": 0.0,
      "step": 4040
    },
    {
      "epoch": 2.958538812785388,
      "grad_norm": NaN,
      "learning_rate": 1.3320177602368033e-06,
      "loss": 0.0,
      "step": 4050
    },
    {
      "epoch": 2.958538812785388,
      "eval_loss": NaN,
      "eval_runtime": 75.4374,
      "eval_samples_per_second": 140.116,
      "eval_steps_per_second": 8.762,
      "step": 4050
    },
    {
      "epoch": 2.9658447488584474,
      "grad_norm": NaN,
      "learning_rate": 1.0853478046373952e-06,
      "loss": 0.0,
      "step": 4060
    },
    {
      "epoch": 2.9731506849315066,
      "grad_norm": NaN,
      "learning_rate": 8.386778490379872e-07,
      "loss": 0.0,
      "step": 4070
    },
    {
      "epoch": 2.980456621004566,
      "grad_norm": NaN,
      "learning_rate": 5.920078934385792e-07,
      "loss": 0.0,
      "step": 4080
    },
    {
      "epoch": 2.987762557077626,
      "grad_norm": NaN,
      "learning_rate": 3.4533793783917124e-07,
      "loss": 0.0,
      "step": 4090
    },
    {
      "epoch": 2.995068493150685,
      "grad_norm": NaN,
      "learning_rate": 9.86679822397632e-08,
      "loss": 0.0,
      "step": 4100
    },
    {
      "epoch": 2.995068493150685,
      "eval_loss": NaN,
      "eval_runtime": 75.3535,
      "eval_samples_per_second": 140.272,
      "eval_steps_per_second": 8.772,
      "step": 4100
    }
  ],
  "logging_steps": 10,
  "max_steps": 4104,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.893527772009083e+17,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}