{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.4614970382337103,
  "eval_steps": 500,
  "global_step": 7428,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00012417732522041475,
      "grad_norm": 1.9972740411758423,
      "learning_rate": 2.5000000000000004e-07,
      "loss": 3.1309,
      "step": 1
    },
    {
      "epoch": 0.0002483546504408295,
      "grad_norm": 0.4196031987667084,
      "learning_rate": 5.000000000000001e-07,
      "loss": 1.9498,
      "step": 2
    },
    {
      "epoch": 0.00037253197566124423,
      "grad_norm": 0.9132967591285706,
      "learning_rate": 7.5e-07,
      "loss": 2.3547,
      "step": 3
    },
    {
      "epoch": 0.000496709300881659,
      "grad_norm": 1.5627893209457397,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 2.7516,
      "step": 4
    },
    {
      "epoch": 0.0006208866261020738,
      "grad_norm": 1.751610279083252,
      "learning_rate": 1.25e-06,
      "loss": 2.8906,
      "step": 5
    },
    {
      "epoch": 0.0007450639513224885,
      "grad_norm": 1.7836052179336548,
      "learning_rate": 1.5e-06,
      "loss": 2.7751,
      "step": 6
    },
    {
      "epoch": 0.0008692412765429032,
      "grad_norm": 2.1412250995635986,
      "learning_rate": 1.7500000000000002e-06,
      "loss": 3.2829,
      "step": 7
    },
    {
      "epoch": 0.000993418601763318,
      "grad_norm": 3.818275213241577,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 2.5971,
      "step": 8
    },
    {
      "epoch": 0.0011175959269837327,
      "grad_norm": 2.5483787059783936,
      "learning_rate": 2.25e-06,
      "loss": 3.2911,
      "step": 9
    },
    {
      "epoch": 0.0012417732522041476,
      "grad_norm": 1.694832682609558,
      "learning_rate": 2.5e-06,
      "loss": 2.7594,
      "step": 10
    },
    {
      "epoch": 0.0013659505774245623,
      "grad_norm": 2.2460033893585205,
      "learning_rate": 2.7500000000000004e-06,
      "loss": 3.2845,
      "step": 11
    },
    {
      "epoch": 0.001490127902644977,
      "grad_norm": 0.9272519946098328,
      "learning_rate": 3e-06,
      "loss": 2.2749,
      "step": 12
    },
    {
      "epoch": 0.0016143052278653918,
      "grad_norm": 1.1639480590820312,
      "learning_rate": 3.2500000000000002e-06,
      "loss": 2.4602,
      "step": 13
    },
    {
      "epoch": 0.0017384825530858065,
      "grad_norm": 3.024296283721924,
      "learning_rate": 3.5000000000000004e-06,
      "loss": 3.8326,
      "step": 14
    },
    {
      "epoch": 0.0018626598783062214,
      "grad_norm": 1.4361118078231812,
      "learning_rate": 3.75e-06,
      "loss": 2.6242,
      "step": 15
    },
    {
      "epoch": 0.001986837203526636,
      "grad_norm": 1.5660126209259033,
      "learning_rate": 4.000000000000001e-06,
      "loss": 2.6636,
      "step": 16
    },
    {
      "epoch": 0.002111014528747051,
      "grad_norm": 2.5432591438293457,
      "learning_rate": 4.250000000000001e-06,
      "loss": 3.3678,
      "step": 17
    },
    {
      "epoch": 0.0022351918539674654,
      "grad_norm": 2.389925479888916,
      "learning_rate": 4.5e-06,
      "loss": 3.4116,
      "step": 18
    },
    {
      "epoch": 0.0023593691791878803,
      "grad_norm": 0.580479621887207,
      "learning_rate": 4.75e-06,
      "loss": 2.0553,
      "step": 19
    },
    {
      "epoch": 0.002483546504408295,
      "grad_norm": 2.27305269241333,
      "learning_rate": 5e-06,
      "loss": 3.7348,
      "step": 20
    },
    {
      "epoch": 0.0026077238296287096,
      "grad_norm": 0.42597833275794983,
      "learning_rate": 5.25e-06,
      "loss": 1.8877,
      "step": 21
    },
    {
      "epoch": 0.0027319011548491245,
      "grad_norm": 3.5201642513275146,
      "learning_rate": 5.500000000000001e-06,
      "loss": 5.1293,
      "step": 22
    },
    {
      "epoch": 0.0028560784800695394,
      "grad_norm": 0.6278425455093384,
      "learning_rate": 5.750000000000001e-06,
      "loss": 2.1686,
      "step": 23
    },
    {
      "epoch": 0.002980255805289954,
      "grad_norm": 0.47079750895500183,
      "learning_rate": 6e-06,
      "loss": 2.244,
      "step": 24
    },
    {
      "epoch": 0.0031044331305103688,
      "grad_norm": 0.5824602842330933,
      "learning_rate": 6.25e-06,
      "loss": 2.4093,
      "step": 25
    },
    {
      "epoch": 0.0032286104557307837,
      "grad_norm": 0.6499738097190857,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 2.4185,
      "step": 26
    },
    {
      "epoch": 0.003352787780951198,
      "grad_norm": 0.6688817739486694,
      "learning_rate": 6.750000000000001e-06,
      "loss": 2.4489,
      "step": 27
    },
    {
      "epoch": 0.003476965106171613,
      "grad_norm": 1.1021251678466797,
      "learning_rate": 7.000000000000001e-06,
      "loss": 2.9258,
      "step": 28
    },
    {
      "epoch": 0.003601142431392028,
      "grad_norm": 1.060639500617981,
      "learning_rate": 7.25e-06,
      "loss": 3.0351,
      "step": 29
    },
    {
      "epoch": 0.0037253197566124428,
      "grad_norm": 2.2871217727661133,
      "learning_rate": 7.5e-06,
      "loss": 4.6802,
      "step": 30
    },
    {
      "epoch": 0.0038494970818328572,
      "grad_norm": 1.0577988624572754,
      "learning_rate": 7.75e-06,
      "loss": 2.8163,
      "step": 31
    },
    {
      "epoch": 0.003973674407053272,
      "grad_norm": 0.3350886106491089,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.9198,
      "step": 32
    },
    {
      "epoch": 0.004097851732273687,
      "grad_norm": 1.3288217782974243,
      "learning_rate": 8.25e-06,
      "loss": 3.468,
      "step": 33
    },
    {
      "epoch": 0.004222029057494102,
      "grad_norm": 0.4030284583568573,
      "learning_rate": 8.500000000000002e-06,
      "loss": 2.2999,
      "step": 34
    },
    {
      "epoch": 0.004346206382714516,
      "grad_norm": 0.42509469389915466,
      "learning_rate": 8.75e-06,
      "loss": 2.3681,
      "step": 35
    },
    {
      "epoch": 0.004470383707934931,
      "grad_norm": 0.4114774465560913,
      "learning_rate": 9e-06,
      "loss": 2.2684,
      "step": 36
    },
    {
      "epoch": 0.004594561033155346,
      "grad_norm": 0.480406254529953,
      "learning_rate": 9.25e-06,
      "loss": 2.4586,
      "step": 37
    },
    {
      "epoch": 0.004718738358375761,
      "grad_norm": 1.4463213682174683,
      "learning_rate": 9.5e-06,
      "loss": 3.8188,
      "step": 38
    },
    {
      "epoch": 0.004842915683596175,
      "grad_norm": 0.33254992961883545,
      "learning_rate": 9.750000000000002e-06,
      "loss": 2.11,
      "step": 39
    },
    {
      "epoch": 0.00496709300881659,
      "grad_norm": 0.6171764135360718,
      "learning_rate": 1e-05,
      "loss": 2.1058,
      "step": 40
    },
    {
      "epoch": 0.005091270334037005,
      "grad_norm": 0.7144868969917297,
      "learning_rate": 1.025e-05,
      "loss": 2.9112,
      "step": 41
    },
    {
      "epoch": 0.005215447659257419,
      "grad_norm": 0.37768566608428955,
      "learning_rate": 1.05e-05,
      "loss": 2.4216,
      "step": 42
    },
    {
      "epoch": 0.005339624984477835,
      "grad_norm": 0.2819634974002838,
      "learning_rate": 1.075e-05,
      "loss": 1.9169,
      "step": 43
    },
    {
      "epoch": 0.005463802309698249,
      "grad_norm": 0.4746767282485962,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 2.479,
      "step": 44
    },
    {
      "epoch": 0.0055879796349186635,
      "grad_norm": 0.6445564031600952,
      "learning_rate": 1.125e-05,
      "loss": 2.7089,
      "step": 45
    },
    {
      "epoch": 0.005712156960139079,
      "grad_norm": 0.3493378162384033,
      "learning_rate": 1.1500000000000002e-05,
      "loss": 2.0534,
      "step": 46
    },
    {
      "epoch": 0.005836334285359493,
      "grad_norm": 0.40267983078956604,
      "learning_rate": 1.175e-05,
      "loss": 2.3149,
      "step": 47
    },
    {
      "epoch": 0.005960511610579908,
      "grad_norm": 0.39035916328430176,
      "learning_rate": 1.2e-05,
      "loss": 2.178,
      "step": 48
    },
    {
      "epoch": 0.006084688935800323,
      "grad_norm": 0.47994619607925415,
      "learning_rate": 1.225e-05,
      "loss": 2.581,
      "step": 49
    },
    {
      "epoch": 0.0062088662610207375,
      "grad_norm": 0.8229231834411621,
      "learning_rate": 1.25e-05,
      "loss": 3.0865,
      "step": 50
    },
    {
      "epoch": 0.006333043586241152,
      "grad_norm": 0.47467172145843506,
      "learning_rate": 1.2750000000000002e-05,
      "loss": 2.6022,
      "step": 51
    },
    {
      "epoch": 0.006457220911461567,
      "grad_norm": 0.5355031490325928,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 2.6013,
      "step": 52
    },
    {
      "epoch": 0.006581398236681982,
      "grad_norm": 0.27130579948425293,
      "learning_rate": 1.3250000000000002e-05,
      "loss": 1.8945,
      "step": 53
    },
    {
      "epoch": 0.006705575561902396,
      "grad_norm": 0.5617486238479614,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 2.0927,
      "step": 54
    },
    {
      "epoch": 0.0068297528871228115,
      "grad_norm": 1.4256666898727417,
      "learning_rate": 1.3750000000000002e-05,
      "loss": 3.0528,
      "step": 55
    },
    {
      "epoch": 0.006953930212343226,
      "grad_norm": 0.7161185145378113,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 2.8259,
      "step": 56
    },
    {
      "epoch": 0.0070781075375636405,
      "grad_norm": 1.7097219228744507,
      "learning_rate": 1.4249999999999999e-05,
      "loss": 2.6188,
      "step": 57
    },
    {
      "epoch": 0.007202284862784056,
      "grad_norm": 0.30535292625427246,
      "learning_rate": 1.45e-05,
      "loss": 1.9856,
      "step": 58
    },
    {
      "epoch": 0.00732646218800447,
      "grad_norm": 0.3676794767379761,
      "learning_rate": 1.475e-05,
      "loss": 2.2203,
      "step": 59
    },
    {
      "epoch": 0.0074506395132248856,
      "grad_norm": 0.3784639239311218,
      "learning_rate": 1.5e-05,
      "loss": 1.9348,
      "step": 60
    },
    {
      "epoch": 0.0075748168384453,
      "grad_norm": 0.7310217022895813,
      "learning_rate": 1.525e-05,
      "loss": 3.2562,
      "step": 61
    },
    {
      "epoch": 0.0076989941636657145,
      "grad_norm": 0.46555766463279724,
      "learning_rate": 1.55e-05,
      "loss": 2.3449,
      "step": 62
    },
    {
      "epoch": 0.00782317148888613,
      "grad_norm": 0.4974745810031891,
      "learning_rate": 1.575e-05,
      "loss": 2.764,
      "step": 63
    },
    {
      "epoch": 0.007947348814106544,
      "grad_norm": 0.7489021420478821,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 3.1774,
      "step": 64
    },
    {
      "epoch": 0.008071526139326959,
      "grad_norm": 0.9219920635223389,
      "learning_rate": 1.6250000000000002e-05,
      "loss": 2.343,
      "step": 65
    },
    {
      "epoch": 0.008195703464547373,
      "grad_norm": 0.42888444662094116,
      "learning_rate": 1.65e-05,
      "loss": 2.3018,
      "step": 66
    },
    {
      "epoch": 0.008319880789767788,
      "grad_norm": 0.399170458316803,
      "learning_rate": 1.675e-05,
      "loss": 2.3174,
      "step": 67
    },
    {
      "epoch": 0.008444058114988204,
      "grad_norm": 0.7459259033203125,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 3.2416,
      "step": 68
    },
    {
      "epoch": 0.008568235440208618,
      "grad_norm": 0.7495900988578796,
      "learning_rate": 1.725e-05,
      "loss": 3.4573,
      "step": 69
    },
    {
      "epoch": 0.008692412765429033,
      "grad_norm": 0.3706538677215576,
      "learning_rate": 1.75e-05,
      "loss": 1.9846,
      "step": 70
    },
    {
      "epoch": 0.008816590090649447,
      "grad_norm": 0.4431997239589691,
      "learning_rate": 1.775e-05,
      "loss": 2.322,
      "step": 71
    },
    {
      "epoch": 0.008940767415869862,
      "grad_norm": 0.5538950562477112,
      "learning_rate": 1.8e-05,
      "loss": 1.8841,
      "step": 72
    },
    {
      "epoch": 0.009064944741090276,
      "grad_norm": 0.9639168977737427,
      "learning_rate": 1.825e-05,
      "loss": 3.2895,
      "step": 73
    },
    {
      "epoch": 0.009189122066310692,
      "grad_norm": 0.5068603157997131,
      "learning_rate": 1.85e-05,
      "loss": 2.2791,
      "step": 74
    },
    {
      "epoch": 0.009313299391531107,
      "grad_norm": 0.400095134973526,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 2.3856,
      "step": 75
    },
    {
      "epoch": 0.009437476716751521,
      "grad_norm": 0.6737989187240601,
      "learning_rate": 1.9e-05,
      "loss": 2.5886,
      "step": 76
    },
    {
      "epoch": 0.009561654041971936,
      "grad_norm": 0.5538077354431152,
      "learning_rate": 1.925e-05,
      "loss": 2.471,
      "step": 77
    },
    {
      "epoch": 0.00968583136719235,
      "grad_norm": 1.5527266263961792,
      "learning_rate": 1.9500000000000003e-05,
      "loss": 2.2257,
      "step": 78
    },
    {
      "epoch": 0.009810008692412766,
      "grad_norm": 0.30248555541038513,
      "learning_rate": 1.9750000000000002e-05,
      "loss": 1.9698,
      "step": 79
    },
    {
      "epoch": 0.00993418601763318,
      "grad_norm": 0.3202931582927704,
      "learning_rate": 2e-05,
      "loss": 2.0785,
      "step": 80
    },
    {
      "epoch": 0.010058363342853595,
      "grad_norm": 0.9583621621131897,
      "learning_rate": 2.025e-05,
      "loss": 3.137,
      "step": 81
    },
    {
      "epoch": 0.01018254066807401,
      "grad_norm": 0.33016419410705566,
      "learning_rate": 2.05e-05,
      "loss": 1.7716,
      "step": 82
    },
    {
      "epoch": 0.010306717993294424,
      "grad_norm": 0.5700507760047913,
      "learning_rate": 2.075e-05,
      "loss": 2.3819,
      "step": 83
    },
    {
      "epoch": 0.010430895318514839,
      "grad_norm": 0.4957675337791443,
      "learning_rate": 2.1e-05,
      "loss": 2.2985,
      "step": 84
    },
    {
      "epoch": 0.010555072643735255,
      "grad_norm": 0.32864460349082947,
      "learning_rate": 2.125e-05,
      "loss": 2.1227,
      "step": 85
    },
    {
      "epoch": 0.01067924996895567,
      "grad_norm": 0.47747576236724854,
      "learning_rate": 2.15e-05,
      "loss": 2.5522,
      "step": 86
    },
    {
      "epoch": 0.010803427294176084,
      "grad_norm": 0.2985879182815552,
      "learning_rate": 2.175e-05,
      "loss": 2.0393,
      "step": 87
    },
    {
      "epoch": 0.010927604619396498,
      "grad_norm": 0.437658429145813,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 2.3948,
      "step": 88
    },
    {
      "epoch": 0.011051781944616913,
      "grad_norm": 0.7312447428703308,
      "learning_rate": 2.2250000000000002e-05,
      "loss": 2.6819,
      "step": 89
    },
    {
      "epoch": 0.011175959269837327,
      "grad_norm": 0.43491923809051514,
      "learning_rate": 2.25e-05,
      "loss": 2.5222,
      "step": 90
    },
    {
      "epoch": 0.011300136595057743,
      "grad_norm": 0.4501711428165436,
      "learning_rate": 2.275e-05,
      "loss": 2.2477,
      "step": 91
    },
    {
      "epoch": 0.011424313920278158,
      "grad_norm": 0.4149808883666992,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 2.074,
      "step": 92
    },
    {
      "epoch": 0.011548491245498572,
      "grad_norm": 0.3053185045719147,
      "learning_rate": 2.3250000000000003e-05,
      "loss": 1.7077,
      "step": 93
    },
    {
      "epoch": 0.011672668570718987,
      "grad_norm": 0.787242591381073,
      "learning_rate": 2.35e-05,
      "loss": 3.0082,
      "step": 94
    },
    {
      "epoch": 0.011796845895939401,
      "grad_norm": 1.549908995628357,
      "learning_rate": 2.375e-05,
      "loss": 3.3943,
      "step": 95
    },
    {
      "epoch": 0.011921023221159815,
      "grad_norm": 0.41458502411842346,
      "learning_rate": 2.4e-05,
      "loss": 2.2152,
      "step": 96
    },
    {
      "epoch": 0.012045200546380232,
      "grad_norm": 0.5464817881584167,
      "learning_rate": 2.425e-05,
      "loss": 2.4457,
      "step": 97
    },
    {
      "epoch": 0.012169377871600646,
      "grad_norm": 0.8465514183044434,
      "learning_rate": 2.45e-05,
      "loss": 2.5779,
      "step": 98
    },
    {
      "epoch": 0.01229355519682106,
      "grad_norm": 0.4009145200252533,
      "learning_rate": 2.4750000000000002e-05,
      "loss": 2.4391,
      "step": 99
    },
    {
      "epoch": 0.012417732522041475,
      "grad_norm": 0.3426278233528137,
      "learning_rate": 2.5e-05,
      "loss": 1.7594,
      "step": 100
    },
    {
      "epoch": 0.01254190984726189,
      "grad_norm": 0.6358038783073425,
      "learning_rate": 2.525e-05,
      "loss": 2.7029,
      "step": 101
    },
    {
      "epoch": 0.012666087172482304,
      "grad_norm": 0.6930362582206726,
      "learning_rate": 2.5500000000000003e-05,
      "loss": 2.8139,
      "step": 102
    },
    {
      "epoch": 0.01279026449770272,
      "grad_norm": 0.9735205769538879,
      "learning_rate": 2.5750000000000002e-05,
      "loss": 2.8593,
      "step": 103
    },
    {
      "epoch": 0.012914441822923135,
      "grad_norm": 0.350033164024353,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 2.0911,
      "step": 104
    },
    {
      "epoch": 0.013038619148143549,
      "grad_norm": 0.596856415271759,
      "learning_rate": 2.625e-05,
      "loss": 2.8891,
      "step": 105
    },
    {
      "epoch": 0.013162796473363964,
      "grad_norm": 0.4276641011238098,
      "learning_rate": 2.6500000000000004e-05,
      "loss": 2.3127,
      "step": 106
    },
    {
      "epoch": 0.013286973798584378,
      "grad_norm": 0.7200548648834229,
      "learning_rate": 2.6750000000000003e-05,
      "loss": 2.6859,
      "step": 107
    },
    {
      "epoch": 0.013411151123804792,
      "grad_norm": 0.37764063477516174,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 2.0031,
      "step": 108
    },
    {
      "epoch": 0.013535328449025209,
      "grad_norm": 0.7167308330535889,
      "learning_rate": 2.725e-05,
      "loss": 3.0279,
      "step": 109
    },
    {
      "epoch": 0.013659505774245623,
      "grad_norm": 0.5303190350532532,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 2.4144,
      "step": 110
    },
    {
      "epoch": 0.013783683099466038,
      "grad_norm": 0.6632254123687744,
      "learning_rate": 2.7750000000000004e-05,
      "loss": 2.8227,
      "step": 111
    },
    {
      "epoch": 0.013907860424686452,
      "grad_norm": 0.5389112830162048,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 2.0841,
      "step": 112
    },
    {
      "epoch": 0.014032037749906866,
      "grad_norm": 0.46221888065338135,
      "learning_rate": 2.825e-05,
      "loss": 2.1262,
      "step": 113
    },
    {
      "epoch": 0.014156215075127281,
      "grad_norm": 0.3444712162017822,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 1.9827,
      "step": 114
    },
    {
      "epoch": 0.014280392400347697,
      "grad_norm": 1.7098551988601685,
      "learning_rate": 2.8749999999999997e-05,
      "loss": 3.4576,
      "step": 115
    },
    {
      "epoch": 0.014404569725568112,
      "grad_norm": 0.3885643482208252,
      "learning_rate": 2.9e-05,
      "loss": 2.0672,
      "step": 116
    },
    {
      "epoch": 0.014528747050788526,
      "grad_norm": 0.471099853515625,
      "learning_rate": 2.925e-05,
      "loss": 2.1644,
      "step": 117
    },
    {
      "epoch": 0.01465292437600894,
      "grad_norm": 0.6742566227912903,
      "learning_rate": 2.95e-05,
      "loss": 2.2505,
      "step": 118
    },
    {
      "epoch": 0.014777101701229355,
      "grad_norm": 0.7954622507095337,
      "learning_rate": 2.975e-05,
      "loss": 3.0283,
      "step": 119
    },
    {
      "epoch": 0.014901279026449771,
      "grad_norm": 0.464680016040802,
      "learning_rate": 3e-05,
      "loss": 2.4224,
      "step": 120
    },
    {
      "epoch": 0.015025456351670186,
      "grad_norm": 0.5577122569084167,
      "learning_rate": 3.025e-05,
      "loss": 2.6874,
      "step": 121
    },
    {
      "epoch": 0.0151496336768906,
      "grad_norm": 0.4663263261318207,
      "learning_rate": 3.05e-05,
      "loss": 2.4357,
      "step": 122
    },
    {
      "epoch": 0.015273811002111014,
      "grad_norm": 0.8069583177566528,
      "learning_rate": 3.075e-05,
      "loss": 2.7963,
      "step": 123
    },
    {
      "epoch": 0.015397988327331429,
      "grad_norm": 0.4184455871582031,
      "learning_rate": 3.1e-05,
      "loss": 2.0846,
      "step": 124
    },
    {
      "epoch": 0.015522165652551843,
      "grad_norm": 0.33683550357818604,
      "learning_rate": 3.125e-05,
      "loss": 2.0174,
      "step": 125
    },
    {
      "epoch": 0.01564634297777226,
      "grad_norm": 0.4974128305912018,
      "learning_rate": 3.15e-05,
      "loss": 2.7199,
      "step": 126
    },
    {
      "epoch": 0.015770520302992672,
      "grad_norm": 0.9204639196395874,
      "learning_rate": 3.175e-05,
      "loss": 3.4981,
      "step": 127
    },
    {
      "epoch": 0.01589469762821309,
      "grad_norm": 0.32168489694595337,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.9273,
      "step": 128
    },
    {
      "epoch": 0.016018874953433505,
      "grad_norm": 0.5214820504188538,
      "learning_rate": 3.2250000000000005e-05,
      "loss": 2.3157,
      "step": 129
    },
    {
      "epoch": 0.016143052278653917,
      "grad_norm": 1.7353380918502808,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 3.2162,
      "step": 130
    },
    {
      "epoch": 0.016267229603874334,
      "grad_norm": 0.6233454942703247,
      "learning_rate": 3.275e-05,
      "loss": 2.5917,
      "step": 131
    },
    {
      "epoch": 0.016391406929094746,
      "grad_norm": 0.4389147460460663,
      "learning_rate": 3.3e-05,
      "loss": 2.281,
      "step": 132
    },
    {
      "epoch": 0.016515584254315162,
      "grad_norm": 0.6098535060882568,
      "learning_rate": 3.325e-05,
      "loss": 2.8663,
      "step": 133
    },
    {
      "epoch": 0.016639761579535575,
      "grad_norm": 0.3645295798778534,
      "learning_rate": 3.35e-05,
      "loss": 2.2955,
      "step": 134
    },
    {
      "epoch": 0.01676393890475599,
      "grad_norm": 0.3560003340244293,
      "learning_rate": 3.375000000000001e-05,
      "loss": 1.8143,
      "step": 135
    },
    {
      "epoch": 0.016888116229976408,
      "grad_norm": 0.3994666337966919,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 2.4423,
      "step": 136
    },
    {
      "epoch": 0.01701229355519682,
      "grad_norm": 0.5861908197402954,
      "learning_rate": 3.4250000000000006e-05,
      "loss": 2.6024,
      "step": 137
    },
    {
      "epoch": 0.017136470880417237,
      "grad_norm": 0.36611929535865784,
      "learning_rate": 3.45e-05,
      "loss": 2.188,
      "step": 138
    },
    {
      "epoch": 0.01726064820563765,
      "grad_norm": 0.3659608066082001,
      "learning_rate": 3.475e-05,
      "loss": 2.1396,
      "step": 139
    },
    {
      "epoch": 0.017384825530858065,
      "grad_norm": 0.33257558941841125,
      "learning_rate": 3.5e-05,
      "loss": 1.9805,
      "step": 140
    },
    {
      "epoch": 0.01750900285607848,
      "grad_norm": 0.7428910732269287,
      "learning_rate": 3.525e-05,
      "loss": 2.8775,
      "step": 141
    },
    {
      "epoch": 0.017633180181298894,
      "grad_norm": 0.33400580286979675,
      "learning_rate": 3.55e-05,
      "loss": 2.0345,
      "step": 142
    },
    {
      "epoch": 0.01775735750651931,
      "grad_norm": 0.35283729434013367,
      "learning_rate": 3.575e-05,
      "loss": 1.9029,
      "step": 143
    },
    {
      "epoch": 0.017881534831739723,
      "grad_norm": 0.3765888214111328,
      "learning_rate": 3.6e-05,
      "loss": 2.0839,
      "step": 144
    },
    {
      "epoch": 0.01800571215696014,
      "grad_norm": 1.138491153717041,
      "learning_rate": 3.625e-05,
      "loss": 2.9589,
      "step": 145
    },
    {
      "epoch": 0.018129889482180552,
      "grad_norm": 0.48436638712882996,
      "learning_rate": 3.65e-05,
      "loss": 1.9813,
      "step": 146
    },
    {
      "epoch": 0.01825406680740097,
      "grad_norm": 0.38523510098457336,
      "learning_rate": 3.675e-05,
      "loss": 2.1353,
      "step": 147
    },
    {
      "epoch": 0.018378244132621385,
      "grad_norm": 0.6861639022827148,
      "learning_rate": 3.7e-05,
      "loss": 2.3444,
      "step": 148
    },
    {
      "epoch": 0.018502421457841797,
      "grad_norm": 0.4485691785812378,
      "learning_rate": 3.7250000000000004e-05,
      "loss": 2.3605,
      "step": 149
    },
    {
      "epoch": 0.018626598783062213,
      "grad_norm": 0.3629736602306366,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 2.0114,
      "step": 150
    },
    {
      "epoch": 0.018750776108282626,
      "grad_norm": 0.30963510274887085,
      "learning_rate": 3.775e-05,
      "loss": 1.7653,
      "step": 151
    },
    {
      "epoch": 0.018874953433503042,
      "grad_norm": 0.2924124002456665,
      "learning_rate": 3.8e-05,
      "loss": 1.8532,
      "step": 152
    },
    {
      "epoch": 0.01899913075872346,
      "grad_norm": 0.35504698753356934,
      "learning_rate": 3.825e-05,
      "loss": 1.9178,
      "step": 153
    },
    {
      "epoch": 0.01912330808394387,
      "grad_norm": 0.847620964050293,
      "learning_rate": 3.85e-05,
      "loss": 3.1104,
      "step": 154
    },
    {
      "epoch": 0.019247485409164287,
      "grad_norm": 0.432923287153244,
      "learning_rate": 3.875e-05,
      "loss": 2.0543,
      "step": 155
    },
    {
      "epoch": 0.0193716627343847,
      "grad_norm": 0.38991379737854004,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 2.0407,
      "step": 156
    },
    {
      "epoch": 0.019495840059605116,
      "grad_norm": 0.3152579069137573,
      "learning_rate": 3.9250000000000005e-05,
      "loss": 1.6679,
      "step": 157
    },
    {
      "epoch": 0.019620017384825533,
      "grad_norm": 0.5111315846443176,
      "learning_rate": 3.9500000000000005e-05,
      "loss": 2.3939,
      "step": 158
    },
    {
      "epoch": 0.019744194710045945,
      "grad_norm": 0.4135592579841614,
      "learning_rate": 3.9750000000000004e-05,
      "loss": 1.9966,
      "step": 159
    },
    {
      "epoch": 0.01986837203526636,
      "grad_norm": 0.38342544436454773,
      "learning_rate": 4e-05,
      "loss": 2.0957,
      "step": 160
    },
    {
      "epoch": 0.019992549360486774,
      "grad_norm": 0.36585286259651184,
      "learning_rate": 4.025e-05,
      "loss": 2.1809,
      "step": 161
    },
    {
      "epoch": 0.02011672668570719,
      "grad_norm": 0.3803645372390747,
      "learning_rate": 4.05e-05,
      "loss": 2.4555,
      "step": 162
    },
    {
      "epoch": 0.020240904010927603,
      "grad_norm": 0.3952953517436981,
      "learning_rate": 4.075e-05,
      "loss": 2.0289,
      "step": 163
    },
    {
      "epoch": 0.02036508133614802,
      "grad_norm": 0.4498346447944641,
      "learning_rate": 4.1e-05,
      "loss": 2.1259,
      "step": 164
    },
    {
      "epoch": 0.020489258661368435,
      "grad_norm": 0.5039570331573486,
      "learning_rate": 4.125e-05,
      "loss": 2.1211,
      "step": 165
    },
    {
      "epoch": 0.020613435986588848,
      "grad_norm": 0.552778422832489,
      "learning_rate": 4.15e-05,
      "loss": 2.7013,
      "step": 166
    },
    {
      "epoch": 0.020737613311809264,
      "grad_norm": 0.48352673649787903,
      "learning_rate": 4.175e-05,
      "loss": 2.2531,
      "step": 167
    },
    {
      "epoch": 0.020861790637029677,
      "grad_norm": 0.33896100521087646,
      "learning_rate": 4.2e-05,
      "loss": 2.0123,
      "step": 168
    },
    {
      "epoch": 0.020985967962250093,
      "grad_norm": 0.29688796401023865,
      "learning_rate": 4.2250000000000004e-05,
      "loss": 1.7783,
      "step": 169
    },
    {
      "epoch": 0.02111014528747051,
      "grad_norm": 0.3621704876422882,
      "learning_rate": 4.25e-05,
      "loss": 2.0276,
      "step": 170
    },
    {
      "epoch": 0.021234322612690922,
      "grad_norm": 0.6339600682258606,
      "learning_rate": 4.275e-05,
      "loss": 3.0074,
      "step": 171
    },
    {
      "epoch": 0.02135849993791134,
      "grad_norm": 0.4397406280040741,
      "learning_rate": 4.3e-05,
      "loss": 2.1572,
      "step": 172
    },
    {
      "epoch": 0.02148267726313175,
      "grad_norm": 0.36329373717308044,
      "learning_rate": 4.325e-05,
      "loss": 1.5756,
      "step": 173
    },
    {
      "epoch": 0.021606854588352167,
      "grad_norm": 1.2870923280715942,
      "learning_rate": 4.35e-05,
      "loss": 3.0002,
      "step": 174
    },
    {
      "epoch": 0.02173103191357258,
      "grad_norm": 0.38476189970970154,
      "learning_rate": 4.375e-05,
      "loss": 1.9917,
      "step": 175
    },
    {
      "epoch": 0.021855209238792996,
      "grad_norm": 0.3581407368183136,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 1.9033,
      "step": 176
    },
    {
      "epoch": 0.021979386564013412,
      "grad_norm": 1.926517128944397,
      "learning_rate": 4.4250000000000005e-05,
      "loss": 2.8374,
      "step": 177
    },
    {
      "epoch": 0.022103563889233825,
      "grad_norm": 0.5636987686157227,
      "learning_rate": 4.4500000000000004e-05,
      "loss": 2.5388,
      "step": 178
    },
    {
      "epoch": 0.02222774121445424,
      "grad_norm": 0.44197601079940796,
      "learning_rate": 4.4750000000000004e-05,
      "loss": 2.2843,
      "step": 179
    },
    {
      "epoch": 0.022351918539674654,
      "grad_norm": 0.2799761891365051,
      "learning_rate": 4.5e-05,
      "loss": 1.7478,
      "step": 180
    },
    {
      "epoch": 0.02247609586489507,
      "grad_norm": 0.4067891240119934,
      "learning_rate": 4.525e-05,
      "loss": 1.8689,
      "step": 181
    },
    {
      "epoch": 0.022600273190115486,
      "grad_norm": 0.7503419518470764,
      "learning_rate": 4.55e-05,
      "loss": 2.1794,
      "step": 182
    },
    {
      "epoch": 0.0227244505153359,
      "grad_norm": 0.4105197489261627,
      "learning_rate": 4.575e-05,
      "loss": 2.3061,
      "step": 183
    },
    {
      "epoch": 0.022848627840556315,
      "grad_norm": 0.5977079272270203,
      "learning_rate": 4.600000000000001e-05,
      "loss": 2.4258,
      "step": 184
    },
    {
      "epoch": 0.022972805165776728,
      "grad_norm": 0.34998947381973267,
      "learning_rate": 4.6250000000000006e-05,
      "loss": 1.9122,
      "step": 185
    },
    {
      "epoch": 0.023096982490997144,
      "grad_norm": 0.4132118225097656,
      "learning_rate": 4.6500000000000005e-05,
      "loss": 2.4114,
      "step": 186
    },
    {
      "epoch": 0.023221159816217557,
      "grad_norm": 0.4211031198501587,
      "learning_rate": 4.6750000000000005e-05,
      "loss": 2.2286,
      "step": 187
    },
    {
      "epoch": 0.023345337141437973,
      "grad_norm": 0.37225693464279175,
      "learning_rate": 4.7e-05,
      "loss": 2.2202,
      "step": 188
    },
    {
      "epoch": 0.02346951446665839,
      "grad_norm": 0.35957542061805725,
      "learning_rate": 4.7249999999999997e-05,
      "loss": 1.8781,
      "step": 189
    },
    {
      "epoch": 0.023593691791878802,
      "grad_norm": 0.6783155202865601,
      "learning_rate": 4.75e-05,
      "loss": 2.1989,
      "step": 190
    },
    {
      "epoch": 0.02371786911709922,
      "grad_norm": 0.3693026900291443,
      "learning_rate": 4.775e-05,
      "loss": 1.975,
      "step": 191
    },
    {
      "epoch": 0.02384204644231963,
      "grad_norm": 0.7921383380889893,
      "learning_rate": 4.8e-05,
      "loss": 2.7003,
      "step": 192
    },
    {
      "epoch": 0.023966223767540047,
      "grad_norm": 0.4388650059700012,
      "learning_rate": 4.825e-05,
      "loss": 2.4211,
      "step": 193
    },
    {
      "epoch": 0.024090401092760463,
      "grad_norm": 0.487396240234375,
      "learning_rate": 4.85e-05,
      "loss": 1.9366,
      "step": 194
    },
    {
      "epoch": 0.024214578417980876,
      "grad_norm": 0.3785874843597412,
      "learning_rate": 4.875e-05,
      "loss": 2.0287,
      "step": 195
    },
    {
      "epoch": 0.024338755743201292,
      "grad_norm": 0.4508357346057892,
      "learning_rate": 4.9e-05,
      "loss": 2.1802,
      "step": 196
    },
    {
      "epoch": 0.024462933068421705,
      "grad_norm": 0.7750405669212341,
      "learning_rate": 4.9250000000000004e-05,
      "loss": 3.2427,
      "step": 197
    },
    {
      "epoch": 0.02458711039364212,
      "grad_norm": 0.631817638874054,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 2.578,
      "step": 198
    },
    {
      "epoch": 0.024711287718862537,
      "grad_norm": 0.5869089365005493,
      "learning_rate": 4.975e-05,
      "loss": 1.8844,
      "step": 199
    },
    {
      "epoch": 0.02483546504408295,
      "grad_norm": 0.512671709060669,
      "learning_rate": 5e-05,
      "loss": 2.2825,
      "step": 200
    },
    {
      "epoch": 0.024959642369303366,
      "grad_norm": 0.5000550150871277,
      "learning_rate": 5e-05,
      "loss": 2.4025,
      "step": 201
    },
    {
      "epoch": 0.02508381969452378,
      "grad_norm": 0.40964850783348083,
      "learning_rate": 5e-05,
      "loss": 2.1271,
      "step": 202
    },
    {
      "epoch": 0.025207997019744195,
      "grad_norm": 0.3266145586967468,
      "learning_rate": 5e-05,
      "loss": 2.0795,
      "step": 203
    },
    {
      "epoch": 0.025332174344964608,
      "grad_norm": 0.3464200794696808,
      "learning_rate": 5e-05,
      "loss": 2.0552,
      "step": 204
    },
    {
      "epoch": 0.025456351670185024,
      "grad_norm": 0.42155832052230835,
      "learning_rate": 5e-05,
      "loss": 2.3771,
      "step": 205
    },
    {
      "epoch": 0.02558052899540544,
      "grad_norm": 0.3549226224422455,
      "learning_rate": 5e-05,
      "loss": 2.0559,
      "step": 206
    },
    {
      "epoch": 0.025704706320625853,
      "grad_norm": 0.3902105391025543,
      "learning_rate": 5e-05,
      "loss": 2.06,
      "step": 207
    },
    {
      "epoch": 0.02582888364584627,
      "grad_norm": 0.4960445761680603,
      "learning_rate": 5e-05,
      "loss": 2.6786,
      "step": 208
    },
    {
      "epoch": 0.025953060971066682,
      "grad_norm": 0.5811383724212646,
      "learning_rate": 5e-05,
      "loss": 2.8473,
      "step": 209
    },
    {
      "epoch": 0.026077238296287098,
      "grad_norm": 0.27700942754745483,
      "learning_rate": 5e-05,
      "loss": 1.6227,
      "step": 210
    },
    {
      "epoch": 0.026201415621507514,
      "grad_norm": 0.3668477237224579,
      "learning_rate": 5e-05,
      "loss": 2.1087,
      "step": 211
    },
    {
      "epoch": 0.026325592946727927,
      "grad_norm": 0.411236047744751,
      "learning_rate": 5e-05,
      "loss": 2.142,
      "step": 212
    },
    {
      "epoch": 0.026449770271948343,
      "grad_norm": 0.3131048381328583,
      "learning_rate": 5e-05,
      "loss": 1.9008,
      "step": 213
    },
    {
      "epoch": 0.026573947597168756,
      "grad_norm": 0.36345964670181274,
      "learning_rate": 5e-05,
      "loss": 2.2525,
      "step": 214
    },
    {
      "epoch": 0.026698124922389172,
      "grad_norm": 0.2752915620803833,
      "learning_rate": 5e-05,
      "loss": 1.7363,
      "step": 215
    },
    {
      "epoch": 0.026822302247609585,
      "grad_norm": 0.612686812877655,
      "learning_rate": 5e-05,
      "loss": 2.2539,
      "step": 216
    },
    {
      "epoch": 0.02694647957283,
      "grad_norm": 0.5532636046409607,
      "learning_rate": 5e-05,
      "loss": 2.6056,
      "step": 217
    },
    {
      "epoch": 0.027070656898050417,
      "grad_norm": 0.5926713347434998,
      "learning_rate": 5e-05,
      "loss": 2.9557,
      "step": 218
    },
    {
      "epoch": 0.02719483422327083,
      "grad_norm": 0.486667275428772,
      "learning_rate": 5e-05,
      "loss": 2.4859,
      "step": 219
    },
    {
      "epoch": 0.027319011548491246,
      "grad_norm": 0.35966232419013977,
      "learning_rate": 5e-05,
      "loss": 1.7959,
      "step": 220
    },
    {
      "epoch": 0.02744318887371166,
      "grad_norm": 0.2921900749206543,
      "learning_rate": 5e-05,
      "loss": 1.8394,
      "step": 221
    },
    {
      "epoch": 0.027567366198932075,
      "grad_norm": 0.7260276675224304,
      "learning_rate": 5e-05,
      "loss": 2.7059,
      "step": 222
    },
    {
      "epoch": 0.02769154352415249,
      "grad_norm": 0.7896019816398621,
      "learning_rate": 5e-05,
      "loss": 2.6853,
      "step": 223
    },
    {
      "epoch": 0.027815720849372904,
      "grad_norm": 0.31710851192474365,
      "learning_rate": 5e-05,
      "loss": 1.8571,
      "step": 224
    },
    {
      "epoch": 0.02793989817459332,
      "grad_norm": 0.337398886680603,
      "learning_rate": 5e-05,
      "loss": 2.0157,
      "step": 225
    },
    {
      "epoch": 0.028064075499813733,
      "grad_norm": 0.3483402132987976,
      "learning_rate": 5e-05,
      "loss": 1.8896,
      "step": 226
    },
    {
      "epoch": 0.02818825282503415,
      "grad_norm": 0.29430773854255676,
      "learning_rate": 5e-05,
      "loss": 1.9548,
      "step": 227
    },
    {
      "epoch": 0.028312430150254562,
      "grad_norm": 0.2870185077190399,
      "learning_rate": 5e-05,
      "loss": 1.8494,
      "step": 228
    },
    {
      "epoch": 0.028436607475474978,
      "grad_norm": 0.29148703813552856,
      "learning_rate": 5e-05,
      "loss": 1.9176,
      "step": 229
    },
    {
      "epoch": 0.028560784800695394,
      "grad_norm": 0.33007490634918213,
      "learning_rate": 5e-05,
      "loss": 2.1557,
      "step": 230
    },
    {
      "epoch": 0.028684962125915807,
      "grad_norm": 0.4312034547328949,
      "learning_rate": 5e-05,
      "loss": 2.4879,
      "step": 231
    },
    {
      "epoch": 0.028809139451136223,
      "grad_norm": 0.5464475154876709,
      "learning_rate": 5e-05,
      "loss": 2.306,
      "step": 232
    },
    {
      "epoch": 0.028933316776356636,
      "grad_norm": 0.32755184173583984,
      "learning_rate": 5e-05,
      "loss": 2.0765,
      "step": 233
    },
    {
      "epoch": 0.029057494101577052,
      "grad_norm": 0.32250750064849854,
      "learning_rate": 5e-05,
      "loss": 1.9146,
      "step": 234
    },
    {
      "epoch": 0.029181671426797468,
      "grad_norm": 0.3579796552658081,
      "learning_rate": 5e-05,
      "loss": 1.8278,
      "step": 235
    },
    {
      "epoch": 0.02930584875201788,
      "grad_norm": 0.531172513961792,
      "learning_rate": 5e-05,
      "loss": 2.489,
      "step": 236
    },
    {
      "epoch": 0.029430026077238297,
      "grad_norm": 0.2668640613555908,
      "learning_rate": 5e-05,
      "loss": 1.8602,
      "step": 237
    },
    {
      "epoch": 0.02955420340245871,
      "grad_norm": 0.40588808059692383,
      "learning_rate": 5e-05,
      "loss": 2.2541,
      "step": 238
    },
    {
      "epoch": 0.029678380727679126,
      "grad_norm": 0.7726118564605713,
      "learning_rate": 5e-05,
      "loss": 2.8152,
      "step": 239
    },
    {
      "epoch": 0.029802558052899542,
      "grad_norm": 0.4816347062587738,
      "learning_rate": 5e-05,
      "loss": 2.5003,
      "step": 240
    },
    {
      "epoch": 0.029926735378119955,
      "grad_norm": 0.4347776770591736,
      "learning_rate": 5e-05,
      "loss": 2.4994,
      "step": 241
    },
    {
      "epoch": 0.03005091270334037,
      "grad_norm": 0.38524556159973145,
      "learning_rate": 5e-05,
      "loss": 1.8947,
      "step": 242
    },
    {
      "epoch": 0.030175090028560784,
      "grad_norm": 0.4469987452030182,
      "learning_rate": 5e-05,
      "loss": 2.2407,
      "step": 243
    },
    {
      "epoch": 0.0302992673537812,
      "grad_norm": 0.38496163487434387,
      "learning_rate": 5e-05,
      "loss": 2.074,
      "step": 244
    },
    {
      "epoch": 0.030423444679001613,
      "grad_norm": 0.4645942747592926,
      "learning_rate": 5e-05,
      "loss": 2.4636,
      "step": 245
    },
    {
      "epoch": 0.03054762200422203,
      "grad_norm": 0.477590411901474,
      "learning_rate": 5e-05,
      "loss": 2.189,
      "step": 246
    },
    {
      "epoch": 0.030671799329442445,
      "grad_norm": 0.36989307403564453,
      "learning_rate": 5e-05,
      "loss": 1.9196,
      "step": 247
    },
    {
      "epoch": 0.030795976654662858,
      "grad_norm": 0.2893427312374115,
      "learning_rate": 5e-05,
      "loss": 1.8337,
      "step": 248
    },
    {
      "epoch": 0.030920153979883274,
      "grad_norm": 0.5507279634475708,
      "learning_rate": 5e-05,
      "loss": 2.3324,
      "step": 249
    },
    {
      "epoch": 0.031044331305103687,
      "grad_norm": 0.40870580077171326,
      "learning_rate": 5e-05,
      "loss": 2.0548,
      "step": 250
    },
    {
      "epoch": 0.031168508630324103,
      "grad_norm": 0.35371220111846924,
      "learning_rate": 5e-05,
      "loss": 1.883,
      "step": 251
    },
    {
      "epoch": 0.03129268595554452,
      "grad_norm": 0.44694972038269043,
      "learning_rate": 5e-05,
      "loss": 2.4052,
      "step": 252
    },
    {
      "epoch": 0.031416863280764935,
      "grad_norm": 0.36996620893478394,
      "learning_rate": 5e-05,
      "loss": 2.0551,
      "step": 253
    },
    {
      "epoch": 0.031541040605985345,
      "grad_norm": 0.2715965211391449,
      "learning_rate": 5e-05,
      "loss": 1.7275,
      "step": 254
    },
    {
      "epoch": 0.03166521793120576,
      "grad_norm": 0.6524844169616699,
      "learning_rate": 5e-05,
      "loss": 2.6092,
      "step": 255
    },
    {
      "epoch": 0.03178939525642618,
      "grad_norm": 0.6248584389686584,
      "learning_rate": 5e-05,
      "loss": 3.1241,
      "step": 256
    },
    {
      "epoch": 0.03191357258164659,
      "grad_norm": 0.2754964232444763,
      "learning_rate": 5e-05,
      "loss": 1.7563,
      "step": 257
    },
    {
      "epoch": 0.03203774990686701,
      "grad_norm": 0.5506348013877869,
      "learning_rate": 5e-05,
      "loss": 2.9112,
      "step": 258
    },
    {
      "epoch": 0.03216192723208742,
      "grad_norm": 0.34817564487457275,
      "learning_rate": 5e-05,
      "loss": 2.0328,
      "step": 259
    },
    {
      "epoch": 0.032286104557307835,
      "grad_norm": 0.46653464436531067,
      "learning_rate": 5e-05,
      "loss": 2.0462,
      "step": 260
    },
    {
      "epoch": 0.03241028188252825,
      "grad_norm": 0.5370591282844543,
      "learning_rate": 5e-05,
      "loss": 2.3273,
      "step": 261
    },
    {
      "epoch": 0.03253445920774867,
      "grad_norm": 0.2886908948421478,
      "learning_rate": 5e-05,
      "loss": 1.8567,
      "step": 262
    },
    {
      "epoch": 0.032658636532969076,
      "grad_norm": 0.34875550866127014,
      "learning_rate": 5e-05,
      "loss": 2.1524,
      "step": 263
    },
    {
      "epoch": 0.03278281385818949,
      "grad_norm": 0.3545679450035095,
      "learning_rate": 5e-05,
      "loss": 2.0521,
      "step": 264
    },
    {
      "epoch": 0.03290699118340991,
      "grad_norm": 0.5829645991325378,
      "learning_rate": 5e-05,
      "loss": 2.5073,
      "step": 265
    },
    {
      "epoch": 0.033031168508630325,
      "grad_norm": 0.4411691427230835,
      "learning_rate": 5e-05,
      "loss": 2.6498,
      "step": 266
    },
    {
      "epoch": 0.03315534583385074,
      "grad_norm": 0.3999745845794678,
      "learning_rate": 5e-05,
      "loss": 2.6879,
      "step": 267
    },
    {
      "epoch": 0.03327952315907115,
      "grad_norm": 0.5126621723175049,
      "learning_rate": 5e-05,
      "loss": 2.053,
      "step": 268
    },
    {
      "epoch": 0.03340370048429157,
      "grad_norm": 0.5460847616195679,
      "learning_rate": 5e-05,
      "loss": 2.1279,
      "step": 269
    },
    {
      "epoch": 0.03352787780951198,
      "grad_norm": 0.4496626853942871,
      "learning_rate": 5e-05,
      "loss": 2.0383,
      "step": 270
    },
    {
      "epoch": 0.0336520551347324,
      "grad_norm": 0.5265777707099915,
      "learning_rate": 5e-05,
      "loss": 2.6784,
      "step": 271
    },
    {
      "epoch": 0.033776232459952815,
      "grad_norm": 0.4580742418766022,
      "learning_rate": 5e-05,
      "loss": 2.5226,
      "step": 272
    },
    {
      "epoch": 0.033900409785173224,
      "grad_norm": 0.3497520387172699,
      "learning_rate": 5e-05,
      "loss": 2.0537,
      "step": 273
    },
    {
      "epoch": 0.03402458711039364,
      "grad_norm": 0.2773326635360718,
      "learning_rate": 5e-05,
      "loss": 1.8833,
      "step": 274
    },
    {
      "epoch": 0.03414876443561406,
      "grad_norm": 0.3024221956729889,
      "learning_rate": 5e-05,
      "loss": 1.9978,
      "step": 275
    },
    {
      "epoch": 0.03427294176083447,
      "grad_norm": 0.46817541122436523,
      "learning_rate": 5e-05,
      "loss": 2.033,
      "step": 276
    },
    {
      "epoch": 0.03439711908605489,
      "grad_norm": 0.5574439764022827,
      "learning_rate": 5e-05,
      "loss": 2.0834,
      "step": 277
    },
    {
      "epoch": 0.0345212964112753,
      "grad_norm": 0.44354552030563354,
      "learning_rate": 5e-05,
      "loss": 2.4408,
      "step": 278
    },
    {
      "epoch": 0.034645473736495715,
      "grad_norm": 0.31415316462516785,
      "learning_rate": 5e-05,
      "loss": 2.0483,
      "step": 279
    },
    {
      "epoch": 0.03476965106171613,
      "grad_norm": 0.38016122579574585,
      "learning_rate": 5e-05,
      "loss": 2.3632,
      "step": 280
    },
    {
      "epoch": 0.03489382838693655,
      "grad_norm": 0.43614232540130615,
      "learning_rate": 5e-05,
      "loss": 1.9638,
      "step": 281
    },
    {
      "epoch": 0.03501800571215696,
      "grad_norm": 0.4233233630657196,
      "learning_rate": 5e-05,
      "loss": 2.2086,
      "step": 282
    },
    {
      "epoch": 0.03514218303737737,
      "grad_norm": 0.31526637077331543,
      "learning_rate": 5e-05,
      "loss": 1.9088,
      "step": 283
    },
    {
      "epoch": 0.03526636036259779,
      "grad_norm": 0.2817949056625366,
      "learning_rate": 5e-05,
      "loss": 1.9809,
      "step": 284
    },
    {
      "epoch": 0.035390537687818205,
      "grad_norm": 0.28902673721313477,
      "learning_rate": 5e-05,
      "loss": 1.9522,
      "step": 285
    },
    {
      "epoch": 0.03551471501303862,
      "grad_norm": 0.31482502818107605,
      "learning_rate": 5e-05,
      "loss": 2.0892,
      "step": 286
    },
    {
      "epoch": 0.03563889233825904,
      "grad_norm": 0.34513360261917114,
      "learning_rate": 5e-05,
      "loss": 1.8356,
      "step": 287
    },
    {
      "epoch": 0.035763069663479446,
      "grad_norm": 0.25314414501190186,
      "learning_rate": 5e-05,
      "loss": 1.6583,
      "step": 288
    },
    {
      "epoch": 0.03588724698869986,
      "grad_norm": 0.26934492588043213,
      "learning_rate": 5e-05,
      "loss": 1.8899,
      "step": 289
    },
    {
      "epoch": 0.03601142431392028,
      "grad_norm": 0.5365657806396484,
      "learning_rate": 5e-05,
      "loss": 2.7175,
      "step": 290
    },
    {
      "epoch": 0.036135601639140695,
      "grad_norm": 0.39509204030036926,
      "learning_rate": 5e-05,
      "loss": 2.1938,
      "step": 291
    },
    {
      "epoch": 0.036259778964361104,
      "grad_norm": 0.3224128782749176,
      "learning_rate": 5e-05,
      "loss": 2.2362,
      "step": 292
    },
    {
      "epoch": 0.03638395628958152,
      "grad_norm": 0.3229978382587433,
      "learning_rate": 5e-05,
      "loss": 2.2166,
      "step": 293
    },
    {
      "epoch": 0.03650813361480194,
      "grad_norm": 0.306490421295166,
      "learning_rate": 5e-05,
      "loss": 1.9623,
      "step": 294
    },
    {
      "epoch": 0.03663231094002235,
      "grad_norm": 0.2801074683666229,
      "learning_rate": 5e-05,
      "loss": 1.7569,
      "step": 295
    },
    {
      "epoch": 0.03675648826524277,
      "grad_norm": 0.7114109992980957,
      "learning_rate": 5e-05,
      "loss": 2.7558,
      "step": 296
    },
    {
      "epoch": 0.03688066559046318,
      "grad_norm": 0.40275782346725464,
      "learning_rate": 5e-05,
      "loss": 2.4591,
      "step": 297
    },
    {
      "epoch": 0.037004842915683595,
      "grad_norm": 0.45890384912490845,
      "learning_rate": 5e-05,
      "loss": 2.5683,
      "step": 298
    },
    {
      "epoch": 0.03712902024090401,
      "grad_norm": 0.2812986671924591,
      "learning_rate": 5e-05,
      "loss": 1.8466,
      "step": 299
    },
    {
      "epoch": 0.03725319756612443,
      "grad_norm": 0.27165907621383667,
      "learning_rate": 5e-05,
      "loss": 1.8132,
      "step": 300
    },
    {
      "epoch": 0.03737737489134484,
      "grad_norm": 0.7007853388786316,
      "learning_rate": 5e-05,
      "loss": 2.4039,
      "step": 301
    },
    {
      "epoch": 0.03750155221656525,
      "grad_norm": 0.29555222392082214,
      "learning_rate": 5e-05,
      "loss": 1.8297,
      "step": 302
    },
    {
      "epoch": 0.03762572954178567,
      "grad_norm": 0.8720472455024719,
      "learning_rate": 5e-05,
      "loss": 3.5648,
      "step": 303
    },
    {
      "epoch": 0.037749906867006085,
      "grad_norm": 0.5265495777130127,
      "learning_rate": 5e-05,
      "loss": 2.3558,
      "step": 304
    },
    {
      "epoch": 0.0378740841922265,
      "grad_norm": 0.30763059854507446,
      "learning_rate": 5e-05,
      "loss": 1.9394,
      "step": 305
    },
    {
      "epoch": 0.03799826151744692,
      "grad_norm": 0.4869915246963501,
      "learning_rate": 5e-05,
      "loss": 2.4922,
      "step": 306
    },
    {
      "epoch": 0.038122438842667326,
      "grad_norm": 0.4010864496231079,
      "learning_rate": 5e-05,
      "loss": 2.5176,
      "step": 307
    },
    {
      "epoch": 0.03824661616788774,
      "grad_norm": 0.3895525634288788,
      "learning_rate": 5e-05,
      "loss": 2.0411,
      "step": 308
    },
    {
      "epoch": 0.03837079349310816,
      "grad_norm": 0.33512821793556213,
      "learning_rate": 5e-05,
      "loss": 1.7361,
      "step": 309
    },
    {
      "epoch": 0.038494970818328575,
      "grad_norm": 0.2946857810020447,
      "learning_rate": 5e-05,
      "loss": 2.1224,
      "step": 310
    },
    {
      "epoch": 0.03861914814354899,
      "grad_norm": 0.2924429178237915,
      "learning_rate": 5e-05,
      "loss": 1.9855,
      "step": 311
    },
    {
      "epoch": 0.0387433254687694,
      "grad_norm": 0.2950690686702728,
      "learning_rate": 5e-05,
      "loss": 2.0655,
      "step": 312
    },
    {
      "epoch": 0.03886750279398982,
      "grad_norm": 0.3788645267486572,
      "learning_rate": 5e-05,
      "loss": 2.0447,
      "step": 313
    },
    {
      "epoch": 0.03899168011921023,
      "grad_norm": 0.24583245813846588,
      "learning_rate": 5e-05,
      "loss": 1.9357,
      "step": 314
    },
    {
      "epoch": 0.03911585744443065,
      "grad_norm": 0.25939449667930603,
      "learning_rate": 5e-05,
      "loss": 1.7458,
      "step": 315
    },
    {
      "epoch": 0.039240034769651065,
      "grad_norm": 0.6960536241531372,
      "learning_rate": 5e-05,
      "loss": 2.9839,
      "step": 316
    },
    {
      "epoch": 0.039364212094871474,
      "grad_norm": 0.7116987705230713,
      "learning_rate": 5e-05,
      "loss": 3.4002,
      "step": 317
    },
    {
      "epoch": 0.03948838942009189,
      "grad_norm": 0.5138376355171204,
      "learning_rate": 5e-05,
      "loss": 2.2105,
      "step": 318
    },
    {
      "epoch": 0.03961256674531231,
      "grad_norm": 0.35122495889663696,
      "learning_rate": 5e-05,
      "loss": 1.9606,
      "step": 319
    },
    {
      "epoch": 0.03973674407053272,
      "grad_norm": 0.33248552680015564,
      "learning_rate": 5e-05,
      "loss": 1.8964,
      "step": 320
    },
    {
      "epoch": 0.03986092139575313,
      "grad_norm": 0.5977162718772888,
      "learning_rate": 5e-05,
      "loss": 2.6293,
      "step": 321
    },
    {
      "epoch": 0.03998509872097355,
      "grad_norm": 1.101988673210144,
      "learning_rate": 5e-05,
      "loss": 2.3351,
      "step": 322
    },
    {
      "epoch": 0.040109276046193965,
      "grad_norm": 0.36033323407173157,
      "learning_rate": 5e-05,
      "loss": 2.0743,
      "step": 323
    },
    {
      "epoch": 0.04023345337141438,
      "grad_norm": 0.44148921966552734,
      "learning_rate": 5e-05,
      "loss": 2.1855,
      "step": 324
    },
    {
      "epoch": 0.0403576306966348,
      "grad_norm": 0.3606829345226288,
      "learning_rate": 5e-05,
      "loss": 1.8096,
      "step": 325
    },
    {
      "epoch": 0.040481808021855206,
      "grad_norm": 0.25826698541641235,
      "learning_rate": 5e-05,
      "loss": 1.8324,
      "step": 326
    },
    {
      "epoch": 0.04060598534707562,
      "grad_norm": 0.2834356427192688,
      "learning_rate": 5e-05,
      "loss": 2.0842,
      "step": 327
    },
    {
      "epoch": 0.04073016267229604,
      "grad_norm": 0.33947786688804626,
      "learning_rate": 5e-05,
      "loss": 1.818,
      "step": 328
    },
    {
      "epoch": 0.040854339997516455,
      "grad_norm": 0.31332477927207947,
      "learning_rate": 5e-05,
      "loss": 2.0323,
      "step": 329
    },
    {
      "epoch": 0.04097851732273687,
      "grad_norm": 0.3210617005825043,
      "learning_rate": 5e-05,
      "loss": 2.1279,
      "step": 330
    },
    {
      "epoch": 0.04110269464795728,
      "grad_norm": 0.327605664730072,
      "learning_rate": 5e-05,
      "loss": 2.3199,
      "step": 331
    },
    {
      "epoch": 0.041226871973177696,
      "grad_norm": 0.4369778633117676,
      "learning_rate": 5e-05,
      "loss": 2.076,
      "step": 332
    },
    {
      "epoch": 0.04135104929839811,
      "grad_norm": 1.08906888961792,
      "learning_rate": 5e-05,
      "loss": 2.6898,
      "step": 333
    },
    {
      "epoch": 0.04147522662361853,
      "grad_norm": 0.27949631214141846,
      "learning_rate": 5e-05,
      "loss": 1.8686,
      "step": 334
    },
    {
      "epoch": 0.041599403948838945,
      "grad_norm": 0.36476194858551025,
      "learning_rate": 5e-05,
      "loss": 2.1013,
      "step": 335
    },
    {
      "epoch": 0.041723581274059354,
      "grad_norm": 0.3634919822216034,
      "learning_rate": 5e-05,
      "loss": 1.921,
      "step": 336
    },
    {
      "epoch": 0.04184775859927977,
      "grad_norm": 0.8270204663276672,
      "learning_rate": 5e-05,
      "loss": 2.7156,
      "step": 337
    },
    {
      "epoch": 0.04197193592450019,
      "grad_norm": 0.3705833852291107,
      "learning_rate": 5e-05,
      "loss": 2.3646,
      "step": 338
    },
    {
      "epoch": 0.0420961132497206,
      "grad_norm": 0.4712885320186615,
      "learning_rate": 5e-05,
      "loss": 2.7343,
      "step": 339
    },
    {
      "epoch": 0.04222029057494102,
      "grad_norm": 0.3547822833061218,
      "learning_rate": 5e-05,
      "loss": 2.0513,
      "step": 340
    },
    {
      "epoch": 0.04234446790016143,
      "grad_norm": 0.344499409198761,
      "learning_rate": 5e-05,
      "loss": 1.8261,
      "step": 341
    },
    {
      "epoch": 0.042468645225381844,
      "grad_norm": 0.4338517189025879,
      "learning_rate": 5e-05,
      "loss": 2.2454,
      "step": 342
    },
    {
      "epoch": 0.04259282255060226,
      "grad_norm": 0.31831085681915283,
      "learning_rate": 5e-05,
      "loss": 2.1019,
      "step": 343
    },
    {
      "epoch": 0.04271699987582268,
      "grad_norm": 0.985245943069458,
      "learning_rate": 5e-05,
      "loss": 3.4544,
      "step": 344
    },
    {
      "epoch": 0.042841177201043086,
      "grad_norm": 0.4352297782897949,
      "learning_rate": 5e-05,
      "loss": 1.941,
      "step": 345
    },
    {
      "epoch": 0.0429653545262635,
      "grad_norm": 0.42493873834609985,
      "learning_rate": 5e-05,
      "loss": 1.8747,
      "step": 346
    },
    {
      "epoch": 0.04308953185148392,
      "grad_norm": 0.42205947637557983,
      "learning_rate": 5e-05,
      "loss": 1.6574,
      "step": 347
    },
    {
      "epoch": 0.043213709176704335,
      "grad_norm": 0.7846937775611877,
      "learning_rate": 5e-05,
      "loss": 2.2254,
      "step": 348
    },
    {
      "epoch": 0.04333788650192475,
      "grad_norm": 0.4324062764644623,
      "learning_rate": 5e-05,
      "loss": 2.1008,
      "step": 349
    },
    {
      "epoch": 0.04346206382714516,
      "grad_norm": 0.35785984992980957,
      "learning_rate": 5e-05,
      "loss": 1.8846,
      "step": 350
    },
    {
      "epoch": 0.043586241152365576,
      "grad_norm": 0.4233599901199341,
      "learning_rate": 5e-05,
      "loss": 1.858,
      "step": 351
    },
    {
      "epoch": 0.04371041847758599,
      "grad_norm": 0.5496866106987,
      "learning_rate": 5e-05,
      "loss": 2.1612,
      "step": 352
    },
    {
      "epoch": 0.04383459580280641,
      "grad_norm": 0.3902002274990082,
      "learning_rate": 5e-05,
      "loss": 1.9258,
      "step": 353
    },
    {
      "epoch": 0.043958773128026825,
      "grad_norm": 0.2814697325229645,
      "learning_rate": 5e-05,
      "loss": 1.9894,
      "step": 354
    },
    {
      "epoch": 0.044082950453247234,
      "grad_norm": 0.2832564115524292,
      "learning_rate": 5e-05,
      "loss": 2.2246,
      "step": 355
    },
    {
      "epoch": 0.04420712777846765,
      "grad_norm": 0.35928434133529663,
      "learning_rate": 5e-05,
      "loss": 2.0396,
      "step": 356
    },
    {
      "epoch": 0.044331305103688066,
      "grad_norm": 0.33969515562057495,
      "learning_rate": 5e-05,
      "loss": 1.7788,
      "step": 357
    },
    {
      "epoch": 0.04445548242890848,
      "grad_norm": 0.3965449035167694,
      "learning_rate": 5e-05,
      "loss": 2.3086,
      "step": 358
    },
    {
      "epoch": 0.0445796597541289,
      "grad_norm": 0.29177576303482056,
      "learning_rate": 5e-05,
      "loss": 2.1047,
      "step": 359
    },
    {
      "epoch": 0.04470383707934931,
      "grad_norm": 0.32253915071487427,
      "learning_rate": 5e-05,
      "loss": 2.1016,
      "step": 360
    },
    {
      "epoch": 0.044828014404569724,
      "grad_norm": 0.2820304036140442,
      "learning_rate": 5e-05,
      "loss": 2.0737,
      "step": 361
    },
    {
      "epoch": 0.04495219172979014,
      "grad_norm": 0.30913272500038147,
      "learning_rate": 5e-05,
      "loss": 2.0834,
      "step": 362
    },
    {
      "epoch": 0.04507636905501056,
      "grad_norm": 0.2592400014400482,
      "learning_rate": 5e-05,
      "loss": 1.6461,
      "step": 363
    },
    {
      "epoch": 0.04520054638023097,
      "grad_norm": 0.3722885251045227,
      "learning_rate": 5e-05,
      "loss": 2.3949,
      "step": 364
    },
    {
      "epoch": 0.04532472370545138,
      "grad_norm": 0.26727503538131714,
      "learning_rate": 5e-05,
      "loss": 1.9801,
      "step": 365
    },
    {
      "epoch": 0.0454489010306718,
      "grad_norm": 0.25907137989997864,
      "learning_rate": 5e-05,
      "loss": 1.9168,
      "step": 366
    },
    {
      "epoch": 0.045573078355892215,
      "grad_norm": 0.24896273016929626,
      "learning_rate": 5e-05,
      "loss": 1.8161,
      "step": 367
    },
    {
      "epoch": 0.04569725568111263,
      "grad_norm": 0.45273929834365845,
      "learning_rate": 5e-05,
      "loss": 2.3741,
      "step": 368
    },
    {
      "epoch": 0.04582143300633305,
      "grad_norm": 0.5102758407592773,
      "learning_rate": 5e-05,
      "loss": 2.1605,
      "step": 369
    },
    {
      "epoch": 0.045945610331553456,
      "grad_norm": 0.23880641162395477,
      "learning_rate": 5e-05,
      "loss": 1.8322,
      "step": 370
    },
    {
      "epoch": 0.04606978765677387,
      "grad_norm": 0.2831520736217499,
      "learning_rate": 5e-05,
      "loss": 1.8083,
      "step": 371
    },
    {
      "epoch": 0.04619396498199429,
      "grad_norm": 0.27552568912506104,
      "learning_rate": 5e-05,
      "loss": 1.8244,
      "step": 372
    },
    {
      "epoch": 0.046318142307214705,
      "grad_norm": 0.45094606280326843,
      "learning_rate": 5e-05,
      "loss": 2.4609,
      "step": 373
    },
    {
      "epoch": 0.046442319632435114,
      "grad_norm": 0.5706016421318054,
      "learning_rate": 5e-05,
      "loss": 2.392,
      "step": 374
    },
    {
      "epoch": 0.04656649695765553,
      "grad_norm": 0.35276082158088684,
      "learning_rate": 5e-05,
      "loss": 2.3236,
      "step": 375
    },
    {
      "epoch": 0.046690674282875946,
      "grad_norm": 0.6116194128990173,
      "learning_rate": 5e-05,
      "loss": 3.0445,
      "step": 376
    },
    {
      "epoch": 0.04681485160809636,
      "grad_norm": 0.48592257499694824,
      "learning_rate": 5e-05,
      "loss": 2.7122,
      "step": 377
    },
    {
      "epoch": 0.04693902893331678,
      "grad_norm": 0.4276454746723175,
      "learning_rate": 5e-05,
      "loss": 1.7492,
      "step": 378
    },
    {
      "epoch": 0.04706320625853719,
      "grad_norm": 0.3442023694515228,
      "learning_rate": 5e-05,
      "loss": 1.7294,
      "step": 379
    },
    {
      "epoch": 0.047187383583757604,
      "grad_norm": 0.31899723410606384,
      "learning_rate": 5e-05,
      "loss": 1.847,
      "step": 380
    },
    {
      "epoch": 0.04731156090897802,
      "grad_norm": 0.6390381455421448,
      "learning_rate": 5e-05,
      "loss": 2.3517,
      "step": 381
    },
    {
      "epoch": 0.04743573823419844,
      "grad_norm": 0.2842358946800232,
      "learning_rate": 5e-05,
      "loss": 1.7723,
      "step": 382
    },
    {
      "epoch": 0.04755991555941885,
      "grad_norm": 0.4072648286819458,
      "learning_rate": 5e-05,
      "loss": 2.07,
      "step": 383
    },
    {
      "epoch": 0.04768409288463926,
      "grad_norm": 0.4015129506587982,
      "learning_rate": 5e-05,
      "loss": 2.0209,
      "step": 384
    },
    {
      "epoch": 0.04780827020985968,
      "grad_norm": 0.3660687506198883,
      "learning_rate": 5e-05,
      "loss": 1.8115,
      "step": 385
    },
    {
      "epoch": 0.047932447535080094,
      "grad_norm": 0.3126830458641052,
      "learning_rate": 5e-05,
      "loss": 1.9809,
      "step": 386
    },
    {
      "epoch": 0.04805662486030051,
      "grad_norm": 0.33506837487220764,
      "learning_rate": 5e-05,
      "loss": 1.9708,
      "step": 387
    },
    {
      "epoch": 0.04818080218552093,
      "grad_norm": 0.3971947431564331,
      "learning_rate": 5e-05,
      "loss": 2.2299,
      "step": 388
    },
    {
      "epoch": 0.048304979510741336,
      "grad_norm": 0.5403782725334167,
      "learning_rate": 5e-05,
      "loss": 2.8499,
      "step": 389
    },
    {
      "epoch": 0.04842915683596175,
      "grad_norm": 0.408307284116745,
      "learning_rate": 5e-05,
      "loss": 2.1051,
      "step": 390
    },
    {
      "epoch": 0.04855333416118217,
      "grad_norm": 0.3732825219631195,
      "learning_rate": 5e-05,
      "loss": 2.5551,
      "step": 391
    },
    {
      "epoch": 0.048677511486402585,
      "grad_norm": 0.2747226059436798,
      "learning_rate": 5e-05,
      "loss": 1.7471,
      "step": 392
    },
    {
      "epoch": 0.048801688811623,
      "grad_norm": 0.7345656156539917,
      "learning_rate": 5e-05,
      "loss": 2.591,
      "step": 393
    },
    {
      "epoch": 0.04892586613684341,
      "grad_norm": 0.33286187052726746,
      "learning_rate": 5e-05,
      "loss": 2.1689,
      "step": 394
    },
    {
      "epoch": 0.049050043462063826,
      "grad_norm": 0.2857557237148285,
      "learning_rate": 5e-05,
      "loss": 1.8944,
      "step": 395
    },
    {
      "epoch": 0.04917422078728424,
      "grad_norm": 0.37910234928131104,
      "learning_rate": 5e-05,
      "loss": 2.2506,
      "step": 396
    },
    {
      "epoch": 0.04929839811250466,
      "grad_norm": 0.36602476239204407,
      "learning_rate": 5e-05,
      "loss": 2.3104,
      "step": 397
    },
    {
      "epoch": 0.049422575437725075,
      "grad_norm": 0.28713685274124146,
      "learning_rate": 5e-05,
      "loss": 2.147,
      "step": 398
    },
    {
      "epoch": 0.049546752762945484,
      "grad_norm": 0.23418322205543518,
      "learning_rate": 5e-05,
      "loss": 1.786,
      "step": 399
    },
    {
      "epoch": 0.0496709300881659,
      "grad_norm": 0.31772157549858093,
      "learning_rate": 5e-05,
      "loss": 2.2039,
      "step": 400
    },
    {
      "epoch": 0.049795107413386316,
      "grad_norm": 0.2687137722969055,
      "learning_rate": 5e-05,
      "loss": 1.8333,
      "step": 401
    },
    {
      "epoch": 0.04991928473860673,
      "grad_norm": 0.2499142736196518,
      "learning_rate": 5e-05,
      "loss": 1.9173,
      "step": 402
    },
    {
      "epoch": 0.05004346206382714,
      "grad_norm": 0.37822225689888,
      "learning_rate": 5e-05,
      "loss": 2.4174,
      "step": 403
    },
    {
      "epoch": 0.05016763938904756,
      "grad_norm": 0.2855492830276489,
      "learning_rate": 5e-05,
      "loss": 1.7378,
      "step": 404
    },
    {
      "epoch": 0.050291816714267974,
      "grad_norm": 0.2772412896156311,
      "learning_rate": 5e-05,
      "loss": 2.0178,
      "step": 405
    },
    {
      "epoch": 0.05041599403948839,
      "grad_norm": 0.30689844489097595,
      "learning_rate": 5e-05,
      "loss": 1.947,
      "step": 406
    },
    {
      "epoch": 0.05054017136470881,
      "grad_norm": 0.2882624864578247,
      "learning_rate": 5e-05,
      "loss": 1.844,
      "step": 407
    },
    {
      "epoch": 0.050664348689929216,
      "grad_norm": 0.23683811724185944,
      "learning_rate": 5e-05,
      "loss": 1.7275,
      "step": 408
    },
    {
      "epoch": 0.05078852601514963,
      "grad_norm": 0.5635033845901489,
      "learning_rate": 5e-05,
      "loss": 3.4076,
      "step": 409
    },
    {
      "epoch": 0.05091270334037005,
      "grad_norm": 0.23519952595233917,
      "learning_rate": 5e-05,
      "loss": 1.6939,
      "step": 410
    },
    {
      "epoch": 0.051036880665590464,
      "grad_norm": 0.33149218559265137,
      "learning_rate": 5e-05,
      "loss": 2.3945,
      "step": 411
    },
    {
      "epoch": 0.05116105799081088,
      "grad_norm": 0.5098563432693481,
      "learning_rate": 5e-05,
      "loss": 2.8198,
      "step": 412
    },
    {
      "epoch": 0.05128523531603129,
      "grad_norm": 0.23613744974136353,
      "learning_rate": 5e-05,
      "loss": 1.6647,
      "step": 413
    },
    {
      "epoch": 0.051409412641251706,
      "grad_norm": 0.29657983779907227,
      "learning_rate": 5e-05,
      "loss": 1.7917,
      "step": 414
    },
    {
      "epoch": 0.05153358996647212,
      "grad_norm": 0.326131671667099,
      "learning_rate": 5e-05,
      "loss": 1.8165,
      "step": 415
    },
    {
      "epoch": 0.05165776729169254,
      "grad_norm": 0.39462924003601074,
      "learning_rate": 5e-05,
      "loss": 2.3772,
      "step": 416
    },
    {
      "epoch": 0.051781944616912955,
      "grad_norm": 0.4868965744972229,
      "learning_rate": 5e-05,
      "loss": 2.624,
      "step": 417
    },
    {
      "epoch": 0.051906121942133364,
      "grad_norm": 0.804303765296936,
      "learning_rate": 5e-05,
      "loss": 3.1658,
      "step": 418
    },
    {
      "epoch": 0.05203029926735378,
      "grad_norm": 0.4080972671508789,
      "learning_rate": 5e-05,
      "loss": 2.3328,
      "step": 419
    },
    {
      "epoch": 0.052154476592574196,
      "grad_norm": 0.5057448148727417,
      "learning_rate": 5e-05,
      "loss": 2.6605,
      "step": 420
    },
    {
      "epoch": 0.05227865391779461,
      "grad_norm": 0.40663498640060425,
      "learning_rate": 5e-05,
      "loss": 2.2624,
      "step": 421
    },
    {
      "epoch": 0.05240283124301503,
      "grad_norm": 0.27341869473457336,
      "learning_rate": 5e-05,
      "loss": 1.9175,
      "step": 422
    },
    {
      "epoch": 0.05252700856823544,
      "grad_norm": 0.27328404784202576,
      "learning_rate": 5e-05,
      "loss": 2.1219,
      "step": 423
    },
    {
      "epoch": 0.052651185893455854,
      "grad_norm": 0.6359747052192688,
      "learning_rate": 5e-05,
      "loss": 3.0013,
      "step": 424
    },
    {
      "epoch": 0.05277536321867627,
      "grad_norm": 0.274902880191803,
      "learning_rate": 5e-05,
      "loss": 1.9396,
      "step": 425
    },
    {
      "epoch": 0.052899540543896686,
      "grad_norm": 0.41854164004325867,
      "learning_rate": 5e-05,
      "loss": 2.5872,
      "step": 426
    },
    {
      "epoch": 0.0530237178691171,
      "grad_norm": 0.28985920548439026,
      "learning_rate": 5e-05,
      "loss": 2.1378,
      "step": 427
    },
    {
      "epoch": 0.05314789519433751,
      "grad_norm": 0.3510410785675049,
      "learning_rate": 5e-05,
      "loss": 2.4868,
      "step": 428
    },
    {
      "epoch": 0.05327207251955793,
      "grad_norm": 0.4156201481819153,
      "learning_rate": 5e-05,
      "loss": 2.2873,
      "step": 429
    },
    {
      "epoch": 0.053396249844778344,
      "grad_norm": 0.3104117512702942,
      "learning_rate": 5e-05,
      "loss": 2.0735,
      "step": 430
    },
    {
      "epoch": 0.05352042716999876,
      "grad_norm": 0.3024173080921173,
      "learning_rate": 5e-05,
      "loss": 2.0158,
      "step": 431
    },
    {
      "epoch": 0.05364460449521917,
      "grad_norm": 0.2899841070175171,
      "learning_rate": 5e-05,
      "loss": 1.955,
      "step": 432
    },
    {
      "epoch": 0.053768781820439586,
      "grad_norm": 0.5953050851821899,
      "learning_rate": 5e-05,
      "loss": 2.7843,
      "step": 433
    },
    {
      "epoch": 0.05389295914566,
      "grad_norm": 0.33898434042930603,
      "learning_rate": 5e-05,
      "loss": 2.2594,
      "step": 434
    },
    {
      "epoch": 0.05401713647088042,
      "grad_norm": 0.2735304534435272,
      "learning_rate": 5e-05,
      "loss": 2.0111,
      "step": 435
    },
    {
      "epoch": 0.054141313796100834,
      "grad_norm": 0.2993002235889435,
      "learning_rate": 5e-05,
      "loss": 1.8185,
      "step": 436
    },
    {
      "epoch": 0.054265491121321244,
      "grad_norm": 0.6330844759941101,
      "learning_rate": 5e-05,
      "loss": 2.8258,
      "step": 437
    },
    {
      "epoch": 0.05438966844654166,
      "grad_norm": 0.736097514629364,
      "learning_rate": 5e-05,
      "loss": 2.1661,
      "step": 438
    },
    {
      "epoch": 0.054513845771762076,
      "grad_norm": 0.34374523162841797,
      "learning_rate": 5e-05,
      "loss": 1.9379,
      "step": 439
    },
    {
      "epoch": 0.05463802309698249,
      "grad_norm": 0.6117690801620483,
      "learning_rate": 5e-05,
      "loss": 2.346,
      "step": 440
    },
    {
      "epoch": 0.05476220042220291,
      "grad_norm": 0.35637909173965454,
      "learning_rate": 5e-05,
      "loss": 1.9468,
      "step": 441
    },
    {
      "epoch": 0.05488637774742332,
      "grad_norm": 0.3755735456943512,
      "learning_rate": 5e-05,
      "loss": 2.0639,
      "step": 442
    },
    {
      "epoch": 0.055010555072643734,
      "grad_norm": 0.28550875186920166,
      "learning_rate": 5e-05,
      "loss": 1.9211,
      "step": 443
    },
    {
      "epoch": 0.05513473239786415,
      "grad_norm": 0.25539669394493103,
      "learning_rate": 5e-05,
      "loss": 1.7414,
      "step": 444
    },
    {
      "epoch": 0.055258909723084566,
      "grad_norm": 0.27155032753944397,
      "learning_rate": 5e-05,
      "loss": 1.686,
      "step": 445
    },
    {
      "epoch": 0.05538308704830498,
      "grad_norm": 0.38703253865242004,
      "learning_rate": 5e-05,
      "loss": 2.264,
      "step": 446
    },
    {
      "epoch": 0.05550726437352539,
      "grad_norm": 0.48445382714271545,
      "learning_rate": 5e-05,
      "loss": 2.2648,
      "step": 447
    },
    {
      "epoch": 0.05563144169874581,
      "grad_norm": 0.3057152032852173,
      "learning_rate": 5e-05,
      "loss": 1.7933,
      "step": 448
    },
    {
      "epoch": 0.055755619023966224,
      "grad_norm": 0.3264656066894531,
      "learning_rate": 5e-05,
      "loss": 1.981,
      "step": 449
    },
    {
      "epoch": 0.05587979634918664,
      "grad_norm": 0.280307412147522,
      "learning_rate": 5e-05,
      "loss": 1.9146,
      "step": 450
    },
    {
      "epoch": 0.05600397367440706,
      "grad_norm": 0.2741982638835907,
      "learning_rate": 5e-05,
      "loss": 1.8801,
      "step": 451
    },
    {
      "epoch": 0.056128150999627466,
      "grad_norm": 0.6853694319725037,
      "learning_rate": 5e-05,
      "loss": 2.9746,
      "step": 452
    },
    {
      "epoch": 0.05625232832484788,
      "grad_norm": 0.2608783543109894,
      "learning_rate": 5e-05,
      "loss": 1.8815,
      "step": 453
    },
    {
      "epoch": 0.0563765056500683,
      "grad_norm": 0.38988515734672546,
      "learning_rate": 5e-05,
      "loss": 2.1393,
      "step": 454
    },
    {
      "epoch": 0.056500682975288714,
      "grad_norm": 0.3347717225551605,
      "learning_rate": 5e-05,
      "loss": 2.1852,
      "step": 455
    },
    {
      "epoch": 0.056624860300509124,
      "grad_norm": 0.3986371159553528,
      "learning_rate": 5e-05,
      "loss": 2.7134,
      "step": 456
    },
    {
      "epoch": 0.05674903762572954,
      "grad_norm": 0.3521873950958252,
      "learning_rate": 5e-05,
      "loss": 2.6786,
      "step": 457
    },
    {
      "epoch": 0.056873214950949956,
      "grad_norm": 0.3290453851222992,
      "learning_rate": 5e-05,
      "loss": 2.029,
      "step": 458
    },
    {
      "epoch": 0.05699739227617037,
      "grad_norm": 0.3097821772098541,
      "learning_rate": 5e-05,
      "loss": 1.9485,
      "step": 459
    },
    {
      "epoch": 0.05712156960139079,
      "grad_norm": 0.28530988097190857,
      "learning_rate": 5e-05,
      "loss": 2.1007,
      "step": 460
    },
    {
      "epoch": 0.0572457469266112,
      "grad_norm": 0.24027346074581146,
      "learning_rate": 5e-05,
      "loss": 1.7516,
      "step": 461
    },
    {
      "epoch": 0.057369924251831614,
      "grad_norm": 0.49746012687683105,
      "learning_rate": 5e-05,
      "loss": 2.2849,
      "step": 462
    },
    {
      "epoch": 0.05749410157705203,
      "grad_norm": 0.2805483043193817,
      "learning_rate": 5e-05,
      "loss": 2.1191,
      "step": 463
    },
    {
      "epoch": 0.057618278902272446,
      "grad_norm": 0.7454423308372498,
      "learning_rate": 5e-05,
      "loss": 2.7142,
      "step": 464
    },
    {
      "epoch": 0.05774245622749286,
      "grad_norm": 0.26804909110069275,
      "learning_rate": 5e-05,
      "loss": 1.9686,
      "step": 465
    },
    {
      "epoch": 0.05786663355271327,
      "grad_norm": 0.4737478792667389,
      "learning_rate": 5e-05,
      "loss": 2.5153,
      "step": 466
    },
    {
      "epoch": 0.05799081087793369,
      "grad_norm": 0.2857726514339447,
      "learning_rate": 5e-05,
      "loss": 2.0748,
      "step": 467
    },
    {
      "epoch": 0.058114988203154104,
      "grad_norm": 0.29102930426597595,
      "learning_rate": 5e-05,
      "loss": 1.8484,
      "step": 468
    },
    {
      "epoch": 0.05823916552837452,
      "grad_norm": 0.34573471546173096,
      "learning_rate": 5e-05,
      "loss": 2.5487,
      "step": 469
    },
    {
      "epoch": 0.058363342853594936,
      "grad_norm": 0.25077787041664124,
      "learning_rate": 5e-05,
      "loss": 1.771,
      "step": 470
    },
    {
      "epoch": 0.058487520178815346,
      "grad_norm": 0.38156285881996155,
      "learning_rate": 5e-05,
      "loss": 2.1605,
      "step": 471
    },
    {
      "epoch": 0.05861169750403576,
      "grad_norm": 0.28113090991973877,
      "learning_rate": 5e-05,
      "loss": 2.1714,
      "step": 472
    },
    {
      "epoch": 0.05873587482925618,
      "grad_norm": 0.2667486369609833,
      "learning_rate": 5e-05,
      "loss": 2.066,
      "step": 473
    },
    {
      "epoch": 0.058860052154476594,
      "grad_norm": 0.25925296545028687,
      "learning_rate": 5e-05,
      "loss": 1.8001,
      "step": 474
    },
    {
      "epoch": 0.05898422947969701,
      "grad_norm": 0.28931882977485657,
      "learning_rate": 5e-05,
      "loss": 2.1015,
      "step": 475
    },
    {
      "epoch": 0.05910840680491742,
      "grad_norm": 0.26327359676361084,
      "learning_rate": 5e-05,
      "loss": 1.9302,
      "step": 476
    },
    {
      "epoch": 0.059232584130137836,
      "grad_norm": 0.31456077098846436,
      "learning_rate": 5e-05,
      "loss": 1.986,
      "step": 477
    },
    {
      "epoch": 0.05935676145535825,
      "grad_norm": 0.2656742036342621,
      "learning_rate": 5e-05,
      "loss": 1.9974,
      "step": 478
    },
    {
      "epoch": 0.05948093878057867,
      "grad_norm": 0.7194716334342957,
      "learning_rate": 5e-05,
      "loss": 1.9918,
      "step": 479
    },
    {
      "epoch": 0.059605116105799084,
      "grad_norm": 0.3521345853805542,
      "learning_rate": 5e-05,
      "loss": 2.1788,
      "step": 480
    },
    {
      "epoch": 0.059729293431019494,
      "grad_norm": 0.3286682665348053,
      "learning_rate": 5e-05,
      "loss": 2.1944,
      "step": 481
    },
    {
      "epoch": 0.05985347075623991,
      "grad_norm": 0.3449973464012146,
      "learning_rate": 5e-05,
      "loss": 2.0522,
      "step": 482
    },
    {
      "epoch": 0.059977648081460326,
      "grad_norm": 0.28249526023864746,
      "learning_rate": 5e-05,
      "loss": 2.1656,
      "step": 483
    },
    {
      "epoch": 0.06010182540668074,
      "grad_norm": 0.7991644740104675,
      "learning_rate": 5e-05,
      "loss": 2.122,
      "step": 484
    },
    {
      "epoch": 0.06022600273190115,
      "grad_norm": 0.5220968723297119,
      "learning_rate": 5e-05,
      "loss": 2.3525,
      "step": 485
    },
    {
      "epoch": 0.06035018005712157,
      "grad_norm": 0.35750848054885864,
      "learning_rate": 5e-05,
      "loss": 2.7801,
      "step": 486
    },
    {
      "epoch": 0.060474357382341984,
      "grad_norm": 0.5980648398399353,
      "learning_rate": 5e-05,
      "loss": 3.0898,
      "step": 487
    },
    {
      "epoch": 0.0605985347075624,
      "grad_norm": 0.39209190011024475,
      "learning_rate": 5e-05,
      "loss": 2.3064,
      "step": 488
    },
    {
      "epoch": 0.060722712032782816,
      "grad_norm": 0.3195672035217285,
      "learning_rate": 5e-05,
      "loss": 1.9504,
      "step": 489
    },
    {
      "epoch": 0.060846889358003226,
      "grad_norm": 0.6777394413948059,
      "learning_rate": 5e-05,
      "loss": 2.6206,
      "step": 490
    },
    {
      "epoch": 0.06097106668322364,
      "grad_norm": 0.37489867210388184,
      "learning_rate": 5e-05,
      "loss": 2.2357,
      "step": 491
    },
    {
      "epoch": 0.06109524400844406,
      "grad_norm": 0.3548474907875061,
      "learning_rate": 5e-05,
      "loss": 1.8687,
      "step": 492
    },
    {
      "epoch": 0.061219421333664474,
      "grad_norm": 0.3291890621185303,
      "learning_rate": 5e-05,
      "loss": 2.3134,
      "step": 493
    },
    {
      "epoch": 0.06134359865888489,
      "grad_norm": 0.3681256175041199,
      "learning_rate": 5e-05,
      "loss": 2.2221,
      "step": 494
    },
    {
      "epoch": 0.0614677759841053,
      "grad_norm": 0.5733017921447754,
      "learning_rate": 5e-05,
      "loss": 2.5418,
      "step": 495
    },
    {
      "epoch": 0.061591953309325716,
      "grad_norm": 0.4781680107116699,
      "learning_rate": 5e-05,
      "loss": 2.7054,
      "step": 496
    },
    {
      "epoch": 0.06171613063454613,
      "grad_norm": 0.2734091877937317,
      "learning_rate": 5e-05,
      "loss": 1.8827,
      "step": 497
    },
    {
      "epoch": 0.06184030795976655,
      "grad_norm": 0.38738420605659485,
      "learning_rate": 5e-05,
      "loss": 2.6568,
      "step": 498
    },
    {
      "epoch": 0.061964485284986964,
      "grad_norm": 0.46199506521224976,
      "learning_rate": 5e-05,
      "loss": 2.7171,
      "step": 499
    },
    {
      "epoch": 0.062088662610207374,
      "grad_norm": 0.2888731062412262,
      "learning_rate": 5e-05,
      "loss": 1.8164,
      "step": 500
    },
    {
      "epoch": 0.06221283993542779,
      "grad_norm": 0.30647486448287964,
      "learning_rate": 5e-05,
      "loss": 1.9239,
      "step": 501
    },
    {
      "epoch": 0.062337017260648206,
      "grad_norm": 0.33426958322525024,
      "learning_rate": 5e-05,
      "loss": 2.1038,
      "step": 502
    },
    {
      "epoch": 0.06246119458586862,
      "grad_norm": 0.26133787631988525,
      "learning_rate": 5e-05,
      "loss": 1.888,
      "step": 503
    },
    {
      "epoch": 0.06258537191108904,
      "grad_norm": 0.25062304735183716,
      "learning_rate": 5e-05,
      "loss": 2.1271,
      "step": 504
    },
    {
      "epoch": 0.06270954923630945,
      "grad_norm": 0.23644529283046722,
      "learning_rate": 5e-05,
      "loss": 1.6674,
      "step": 505
    },
    {
      "epoch": 0.06283372656152987,
      "grad_norm": 0.24004316329956055,
      "learning_rate": 5e-05,
      "loss": 1.7753,
      "step": 506
    },
    {
      "epoch": 0.06295790388675028,
      "grad_norm": 0.2889292240142822,
      "learning_rate": 5e-05,
      "loss": 1.8082,
      "step": 507
    },
    {
      "epoch": 0.06308208121197069,
      "grad_norm": 0.3024662137031555,
      "learning_rate": 5e-05,
      "loss": 1.9739,
      "step": 508
    },
    {
      "epoch": 0.06320625853719111,
      "grad_norm": 0.29193171858787537,
      "learning_rate": 5e-05,
      "loss": 2.0238,
      "step": 509
    },
    {
      "epoch": 0.06333043586241152,
      "grad_norm": 0.2500467002391815,
      "learning_rate": 5e-05,
      "loss": 1.8968,
      "step": 510
    },
    {
      "epoch": 0.06345461318763194,
      "grad_norm": 0.25340279936790466,
      "learning_rate": 5e-05,
      "loss": 1.9851,
      "step": 511
    },
    {
      "epoch": 0.06357879051285235,
      "grad_norm": 0.3032784163951874,
      "learning_rate": 5e-05,
      "loss": 2.2362,
      "step": 512
    },
    {
      "epoch": 0.06370296783807276,
      "grad_norm": 0.23703156411647797,
      "learning_rate": 5e-05,
      "loss": 1.8264,
      "step": 513
    },
    {
      "epoch": 0.06382714516329319,
      "grad_norm": 0.24125397205352783,
      "learning_rate": 5e-05,
      "loss": 1.805,
      "step": 514
    },
    {
      "epoch": 0.0639513224885136,
      "grad_norm": 0.27547687292099,
      "learning_rate": 5e-05,
      "loss": 1.8905,
      "step": 515
    },
    {
      "epoch": 0.06407549981373402,
      "grad_norm": 0.3540593981742859,
      "learning_rate": 5e-05,
      "loss": 2.4013,
      "step": 516
    },
    {
      "epoch": 0.06419967713895443,
      "grad_norm": 0.24197076261043549,
      "learning_rate": 5e-05,
      "loss": 1.7991,
      "step": 517
    },
    {
      "epoch": 0.06432385446417484,
      "grad_norm": 0.24468238651752472,
      "learning_rate": 5e-05,
      "loss": 1.7627,
      "step": 518
    },
    {
      "epoch": 0.06444803178939526,
      "grad_norm": 0.4829714298248291,
      "learning_rate": 5e-05,
      "loss": 2.6352,
      "step": 519
    },
    {
      "epoch": 0.06457220911461567,
      "grad_norm": 0.26643821597099304,
      "learning_rate": 5e-05,
      "loss": 1.921,
      "step": 520
    },
    {
      "epoch": 0.06469638643983609,
      "grad_norm": 0.2687952220439911,
      "learning_rate": 5e-05,
      "loss": 1.6274,
      "step": 521
    },
    {
      "epoch": 0.0648205637650565,
      "grad_norm": 0.4201943874359131,
      "learning_rate": 5e-05,
      "loss": 2.5597,
      "step": 522
    },
    {
      "epoch": 0.06494474109027691,
      "grad_norm": 0.406886488199234,
      "learning_rate": 5e-05,
      "loss": 2.2164,
      "step": 523
    },
    {
      "epoch": 0.06506891841549733,
      "grad_norm": 0.33637088537216187,
      "learning_rate": 5e-05,
      "loss": 2.0433,
      "step": 524
    },
    {
      "epoch": 0.06519309574071774,
      "grad_norm": 0.25890302658081055,
      "learning_rate": 5e-05,
      "loss": 1.904,
      "step": 525
    },
    {
      "epoch": 0.06531727306593815,
      "grad_norm": 0.2726302742958069,
      "learning_rate": 5e-05,
      "loss": 1.9808,
      "step": 526
    },
    {
      "epoch": 0.06544145039115858,
      "grad_norm": 0.2803145945072174,
      "learning_rate": 5e-05,
      "loss": 1.6989,
      "step": 527
    },
    {
      "epoch": 0.06556562771637899,
      "grad_norm": 0.41411343216896057,
      "learning_rate": 5e-05,
      "loss": 2.27,
      "step": 528
    },
    {
      "epoch": 0.06568980504159941,
      "grad_norm": 0.2928730249404907,
      "learning_rate": 5e-05,
      "loss": 1.9875,
      "step": 529
    },
    {
      "epoch": 0.06581398236681982,
      "grad_norm": 0.29995816946029663,
      "learning_rate": 5e-05,
      "loss": 2.0455,
      "step": 530
    },
    {
      "epoch": 0.06593815969204023,
      "grad_norm": 0.7726313471794128,
      "learning_rate": 5e-05,
      "loss": 3.541,
      "step": 531
    },
    {
      "epoch": 0.06606233701726065,
      "grad_norm": 0.2529071569442749,
      "learning_rate": 5e-05,
      "loss": 2.0551,
      "step": 532
    },
    {
      "epoch": 0.06618651434248106,
      "grad_norm": 0.32561784982681274,
      "learning_rate": 5e-05,
      "loss": 1.9279,
      "step": 533
    },
    {
      "epoch": 0.06631069166770148,
      "grad_norm": 0.29991114139556885,
      "learning_rate": 5e-05,
      "loss": 1.9804,
      "step": 534
    },
    {
      "epoch": 0.06643486899292189,
      "grad_norm": 0.2466021627187729,
      "learning_rate": 5e-05,
      "loss": 1.7065,
      "step": 535
    },
    {
      "epoch": 0.0665590463181423,
      "grad_norm": 0.6933873295783997,
      "learning_rate": 5e-05,
      "loss": 2.6648,
      "step": 536
    },
    {
      "epoch": 0.06668322364336272,
      "grad_norm": 0.23817643523216248,
      "learning_rate": 5e-05,
      "loss": 1.6139,
      "step": 537
    },
    {
      "epoch": 0.06680740096858313,
      "grad_norm": 0.27212318778038025,
      "learning_rate": 5e-05,
      "loss": 2.012,
      "step": 538
    },
    {
      "epoch": 0.06693157829380356,
      "grad_norm": 0.46541309356689453,
      "learning_rate": 5e-05,
      "loss": 2.6264,
      "step": 539
    },
    {
      "epoch": 0.06705575561902397,
      "grad_norm": 0.418171763420105,
      "learning_rate": 5e-05,
      "loss": 2.7678,
      "step": 540
    },
    {
      "epoch": 0.06717993294424437,
      "grad_norm": 0.4368995130062103,
      "learning_rate": 5e-05,
      "loss": 2.4146,
      "step": 541
    },
    {
      "epoch": 0.0673041102694648,
      "grad_norm": 0.35557737946510315,
      "learning_rate": 5e-05,
      "loss": 1.967,
      "step": 542
    },
    {
      "epoch": 0.06742828759468521,
      "grad_norm": 0.2717956006526947,
      "learning_rate": 5e-05,
      "loss": 2.0497,
      "step": 543
    },
    {
      "epoch": 0.06755246491990563,
      "grad_norm": 0.29945579171180725,
      "learning_rate": 5e-05,
      "loss": 2.3428,
      "step": 544
    },
    {
      "epoch": 0.06767664224512604,
      "grad_norm": 0.3052377700805664,
      "learning_rate": 5e-05,
      "loss": 2.214,
      "step": 545
    },
    {
      "epoch": 0.06780081957034645,
      "grad_norm": 0.44460761547088623,
      "learning_rate": 5e-05,
      "loss": 3.1489,
      "step": 546
    },
    {
      "epoch": 0.06792499689556687,
      "grad_norm": 0.26404836773872375,
      "learning_rate": 5e-05,
      "loss": 2.0027,
      "step": 547
    },
    {
      "epoch": 0.06804917422078728,
      "grad_norm": 0.23541861772537231,
      "learning_rate": 5e-05,
      "loss": 1.8127,
      "step": 548
    },
    {
      "epoch": 0.0681733515460077,
      "grad_norm": 0.3142141103744507,
      "learning_rate": 5e-05,
      "loss": 1.8443,
      "step": 549
    },
    {
      "epoch": 0.06829752887122811,
      "grad_norm": 0.3869318664073944,
      "learning_rate": 5e-05,
      "loss": 2.2449,
      "step": 550
    },
    {
      "epoch": 0.06842170619644852,
      "grad_norm": 0.3425566256046295,
      "learning_rate": 5e-05,
      "loss": 2.6453,
      "step": 551
    },
    {
      "epoch": 0.06854588352166895,
      "grad_norm": 0.25234097242355347,
      "learning_rate": 5e-05,
      "loss": 1.986,
      "step": 552
    },
    {
      "epoch": 0.06867006084688936,
      "grad_norm": 0.4374043941497803,
      "learning_rate": 5e-05,
      "loss": 2.7752,
      "step": 553
    },
    {
      "epoch": 0.06879423817210978,
      "grad_norm": 0.3221331238746643,
      "learning_rate": 5e-05,
      "loss": 2.6341,
      "step": 554
    },
    {
      "epoch": 0.06891841549733019,
      "grad_norm": 0.26285409927368164,
      "learning_rate": 5e-05,
      "loss": 2.0298,
      "step": 555
    },
    {
      "epoch": 0.0690425928225506,
      "grad_norm": 0.2963787317276001,
      "learning_rate": 5e-05,
      "loss": 2.0899,
      "step": 556
    },
    {
      "epoch": 0.06916677014777102,
      "grad_norm": 0.2507532835006714,
      "learning_rate": 5e-05,
      "loss": 1.928,
      "step": 557
    },
    {
      "epoch": 0.06929094747299143,
      "grad_norm": 0.2756315767765045,
      "learning_rate": 5e-05,
      "loss": 1.9318,
      "step": 558
    },
    {
      "epoch": 0.06941512479821185,
      "grad_norm": 0.3374318778514862,
      "learning_rate": 5e-05,
      "loss": 2.4675,
      "step": 559
    },
    {
      "epoch": 0.06953930212343226,
      "grad_norm": 0.3347979187965393,
      "learning_rate": 5e-05,
      "loss": 2.1398,
      "step": 560
    },
    {
      "epoch": 0.06966347944865267,
      "grad_norm": 0.31123411655426025,
      "learning_rate": 5e-05,
      "loss": 1.8448,
      "step": 561
    },
    {
      "epoch": 0.0697876567738731,
      "grad_norm": 0.3514026701450348,
      "learning_rate": 5e-05,
      "loss": 2.3298,
      "step": 562
    },
    {
      "epoch": 0.0699118340990935,
      "grad_norm": 0.24323804676532745,
      "learning_rate": 5e-05,
      "loss": 1.7833,
      "step": 563
    },
    {
      "epoch": 0.07003601142431393,
      "grad_norm": 0.37998902797698975,
      "learning_rate": 5e-05,
      "loss": 2.1883,
      "step": 564
    },
    {
      "epoch": 0.07016018874953434,
      "grad_norm": 0.27929794788360596,
      "learning_rate": 5e-05,
      "loss": 1.8131,
      "step": 565
    },
    {
      "epoch": 0.07028436607475474,
      "grad_norm": 0.23255369067192078,
      "learning_rate": 5e-05,
      "loss": 1.6527,
      "step": 566
    },
    {
      "epoch": 0.07040854339997517,
      "grad_norm": 0.3981661796569824,
      "learning_rate": 5e-05,
      "loss": 2.4643,
      "step": 567
    },
    {
      "epoch": 0.07053272072519558,
      "grad_norm": 0.2854522466659546,
      "learning_rate": 5e-05,
      "loss": 2.0035,
      "step": 568
    },
    {
      "epoch": 0.070656898050416,
      "grad_norm": 0.34047701954841614,
      "learning_rate": 5e-05,
      "loss": 2.3843,
      "step": 569
    },
    {
      "epoch": 0.07078107537563641,
      "grad_norm": 0.2492959201335907,
      "learning_rate": 5e-05,
      "loss": 2.0595,
      "step": 570
    },
    {
      "epoch": 0.07090525270085682,
      "grad_norm": 0.28671765327453613,
      "learning_rate": 5e-05,
      "loss": 2.0709,
      "step": 571
    },
    {
      "epoch": 0.07102943002607724,
      "grad_norm": 0.29164648056030273,
      "learning_rate": 5e-05,
      "loss": 2.2407,
      "step": 572
    },
    {
      "epoch": 0.07115360735129765,
      "grad_norm": 0.47018054127693176,
      "learning_rate": 5e-05,
      "loss": 2.669,
      "step": 573
    },
    {
      "epoch": 0.07127778467651807,
      "grad_norm": 0.24436764419078827,
      "learning_rate": 5e-05,
      "loss": 1.663,
      "step": 574
    },
    {
      "epoch": 0.07140196200173848,
      "grad_norm": 0.25208258628845215,
      "learning_rate": 5e-05,
      "loss": 1.8464,
      "step": 575
    },
    {
      "epoch": 0.07152613932695889,
      "grad_norm": 0.25105947256088257,
      "learning_rate": 5e-05,
      "loss": 2.0068,
      "step": 576
    },
    {
      "epoch": 0.07165031665217932,
      "grad_norm": 0.4490038752555847,
      "learning_rate": 5e-05,
      "loss": 2.7631,
      "step": 577
    },
    {
      "epoch": 0.07177449397739973,
      "grad_norm": 0.27281132340431213,
      "learning_rate": 5e-05,
      "loss": 2.0265,
      "step": 578
    },
    {
      "epoch": 0.07189867130262015,
      "grad_norm": 0.38831856846809387,
      "learning_rate": 5e-05,
      "loss": 2.8805,
      "step": 579
    },
    {
      "epoch": 0.07202284862784056,
      "grad_norm": 0.2941652834415436,
      "learning_rate": 5e-05,
      "loss": 2.0559,
      "step": 580
    },
    {
      "epoch": 0.07214702595306097,
      "grad_norm": 0.307485967874527,
      "learning_rate": 5e-05,
      "loss": 2.225,
      "step": 581
    },
    {
      "epoch": 0.07227120327828139,
      "grad_norm": 0.24915628135204315,
      "learning_rate": 5e-05,
      "loss": 1.6885,
      "step": 582
    },
    {
      "epoch": 0.0723953806035018,
      "grad_norm": 0.49729689955711365,
      "learning_rate": 5e-05,
      "loss": 2.7455,
      "step": 583
    },
    {
      "epoch": 0.07251955792872221,
      "grad_norm": 0.3003414571285248,
      "learning_rate": 5e-05,
      "loss": 1.8831,
      "step": 584
    },
    {
      "epoch": 0.07264373525394263,
      "grad_norm": 0.307110995054245,
      "learning_rate": 5e-05,
      "loss": 1.8277,
      "step": 585
    },
    {
      "epoch": 0.07276791257916304,
      "grad_norm": 0.6576548218727112,
      "learning_rate": 5e-05,
      "loss": 3.3871,
      "step": 586
    },
    {
      "epoch": 0.07289208990438346,
      "grad_norm": 0.29746583104133606,
      "learning_rate": 5e-05,
      "loss": 2.4285,
      "step": 587
    },
    {
      "epoch": 0.07301626722960387,
      "grad_norm": 0.3882395327091217,
      "learning_rate": 5e-05,
      "loss": 2.1912,
      "step": 588
    },
    {
      "epoch": 0.07314044455482428,
      "grad_norm": 0.3972069025039673,
      "learning_rate": 5e-05,
      "loss": 1.9297,
      "step": 589
    },
    {
      "epoch": 0.0732646218800447,
      "grad_norm": 0.29125985503196716,
      "learning_rate": 5e-05,
      "loss": 1.7165,
      "step": 590
    },
    {
      "epoch": 0.07338879920526512,
      "grad_norm": 0.35590019822120667,
      "learning_rate": 5e-05,
      "loss": 2.0228,
      "step": 591
    },
    {
      "epoch": 0.07351297653048554,
      "grad_norm": 0.2818076014518738,
      "learning_rate": 5e-05,
      "loss": 2.1202,
      "step": 592
    },
    {
      "epoch": 0.07363715385570595,
      "grad_norm": 0.32424747943878174,
      "learning_rate": 5e-05,
      "loss": 2.0989,
      "step": 593
    },
    {
      "epoch": 0.07376133118092636,
      "grad_norm": 0.30949074029922485,
      "learning_rate": 5e-05,
      "loss": 1.7198,
      "step": 594
    },
    {
      "epoch": 0.07388550850614678,
      "grad_norm": 0.3237742483615875,
      "learning_rate": 5e-05,
      "loss": 2.0506,
      "step": 595
    },
    {
      "epoch": 0.07400968583136719,
      "grad_norm": 0.3861253559589386,
      "learning_rate": 5e-05,
      "loss": 2.5358,
      "step": 596
    },
    {
      "epoch": 0.07413386315658761,
      "grad_norm": 0.2853670120239258,
      "learning_rate": 5e-05,
      "loss": 2.0617,
      "step": 597
    },
    {
      "epoch": 0.07425804048180802,
      "grad_norm": 0.2880936563014984,
      "learning_rate": 5e-05,
      "loss": 2.3797,
      "step": 598
    },
    {
      "epoch": 0.07438221780702843,
      "grad_norm": 0.48230239748954773,
      "learning_rate": 5e-05,
      "loss": 2.4877,
      "step": 599
    },
    {
      "epoch": 0.07450639513224885,
      "grad_norm": 0.3733183443546295,
      "learning_rate": 5e-05,
      "loss": 2.1438,
      "step": 600
    },
    {
      "epoch": 0.07463057245746926,
      "grad_norm": 0.2936583161354065,
      "learning_rate": 5e-05,
      "loss": 2.0757,
      "step": 601
    },
    {
      "epoch": 0.07475474978268969,
      "grad_norm": 0.2757823169231415,
      "learning_rate": 5e-05,
      "loss": 1.6964,
      "step": 602
    },
    {
      "epoch": 0.0748789271079101,
      "grad_norm": 0.26744693517684937,
      "learning_rate": 5e-05,
      "loss": 2.0538,
      "step": 603
    },
    {
      "epoch": 0.0750031044331305,
      "grad_norm": 0.5093820691108704,
      "learning_rate": 5e-05,
      "loss": 2.814,
      "step": 604
    },
    {
      "epoch": 0.07512728175835093,
      "grad_norm": 0.2654862701892853,
      "learning_rate": 5e-05,
      "loss": 2.0413,
      "step": 605
    },
    {
      "epoch": 0.07525145908357134,
      "grad_norm": 0.25221195816993713,
      "learning_rate": 5e-05,
      "loss": 1.8044,
      "step": 606
    },
    {
      "epoch": 0.07537563640879176,
      "grad_norm": 0.22025726735591888,
      "learning_rate": 5e-05,
      "loss": 1.6051,
      "step": 607
    },
    {
      "epoch": 0.07549981373401217,
      "grad_norm": 0.2488354593515396,
      "learning_rate": 5e-05,
      "loss": 1.956,
      "step": 608
    },
    {
      "epoch": 0.07562399105923258,
      "grad_norm": 0.3650732934474945,
      "learning_rate": 5e-05,
      "loss": 2.2333,
      "step": 609
    },
    {
      "epoch": 0.075748168384453,
      "grad_norm": 0.2663559019565582,
      "learning_rate": 5e-05,
      "loss": 2.0696,
      "step": 610
    },
    {
      "epoch": 0.07587234570967341,
      "grad_norm": 0.25640586018562317,
      "learning_rate": 5e-05,
      "loss": 1.8694,
      "step": 611
    },
    {
      "epoch": 0.07599652303489383,
      "grad_norm": 0.2904110848903656,
      "learning_rate": 5e-05,
      "loss": 1.9323,
      "step": 612
    },
    {
      "epoch": 0.07612070036011424,
      "grad_norm": 0.2875644862651825,
      "learning_rate": 5e-05,
      "loss": 2.2906,
      "step": 613
    },
    {
      "epoch": 0.07624487768533465,
      "grad_norm": 0.3155750036239624,
      "learning_rate": 5e-05,
      "loss": 2.0073,
      "step": 614
    },
    {
      "epoch": 0.07636905501055508,
      "grad_norm": 0.27238690853118896,
      "learning_rate": 5e-05,
      "loss": 2.1883,
      "step": 615
    },
    {
      "epoch": 0.07649323233577549,
      "grad_norm": 0.4303113520145416,
      "learning_rate": 5e-05,
      "loss": 2.5293,
      "step": 616
    },
    {
      "epoch": 0.07661740966099591,
      "grad_norm": 0.24898111820220947,
      "learning_rate": 5e-05,
      "loss": 1.8349,
      "step": 617
    },
    {
      "epoch": 0.07674158698621632,
      "grad_norm": 0.278856098651886,
      "learning_rate": 5e-05,
      "loss": 2.0372,
      "step": 618
    },
    {
      "epoch": 0.07686576431143673,
      "grad_norm": 0.2800319194793701,
      "learning_rate": 5e-05,
      "loss": 2.1427,
      "step": 619
    },
    {
      "epoch": 0.07698994163665715,
      "grad_norm": 0.2848834991455078,
      "learning_rate": 5e-05,
      "loss": 2.483,
      "step": 620
    },
    {
      "epoch": 0.07711411896187756,
      "grad_norm": 0.24069686233997345,
      "learning_rate": 5e-05,
      "loss": 1.8475,
      "step": 621
    },
    {
      "epoch": 0.07723829628709798,
      "grad_norm": 0.7840754985809326,
      "learning_rate": 5e-05,
      "loss": 3.1674,
      "step": 622
    },
    {
      "epoch": 0.07736247361231839,
      "grad_norm": 0.3103671371936798,
      "learning_rate": 5e-05,
      "loss": 2.3145,
      "step": 623
    },
    {
      "epoch": 0.0774866509375388,
      "grad_norm": 0.35941794514656067,
      "learning_rate": 5e-05,
      "loss": 2.0401,
      "step": 624
    },
    {
      "epoch": 0.07761082826275922,
      "grad_norm": 0.413422554731369,
      "learning_rate": 5e-05,
      "loss": 2.2512,
      "step": 625
    },
    {
      "epoch": 0.07773500558797963,
      "grad_norm": 0.20849303901195526,
      "learning_rate": 5e-05,
      "loss": 1.3579,
      "step": 626
    },
    {
      "epoch": 0.07785918291320006,
      "grad_norm": 0.2941526174545288,
      "learning_rate": 5e-05,
      "loss": 2.0278,
      "step": 627
    },
    {
      "epoch": 0.07798336023842047,
      "grad_norm": 0.333158403635025,
      "learning_rate": 5e-05,
      "loss": 2.3466,
      "step": 628
    },
    {
      "epoch": 0.07810753756364087,
      "grad_norm": 0.28543370962142944,
      "learning_rate": 5e-05,
      "loss": 1.8151,
      "step": 629
    },
    {
      "epoch": 0.0782317148888613,
      "grad_norm": 0.27258527278900146,
      "learning_rate": 5e-05,
      "loss": 1.8972,
      "step": 630
    },
    {
      "epoch": 0.07835589221408171,
      "grad_norm": 0.2952210307121277,
      "learning_rate": 5e-05,
      "loss": 1.9706,
      "step": 631
    },
    {
      "epoch": 0.07848006953930213,
      "grad_norm": 0.2456735074520111,
      "learning_rate": 5e-05,
      "loss": 1.8652,
      "step": 632
    },
    {
      "epoch": 0.07860424686452254,
      "grad_norm": 0.2551192343235016,
      "learning_rate": 5e-05,
      "loss": 1.9088,
      "step": 633
    },
    {
      "epoch": 0.07872842418974295,
      "grad_norm": 0.42509379982948303,
      "learning_rate": 5e-05,
      "loss": 3.0928,
      "step": 634
    },
    {
      "epoch": 0.07885260151496337,
      "grad_norm": 0.36801427602767944,
      "learning_rate": 5e-05,
      "loss": 2.3781,
      "step": 635
    },
    {
      "epoch": 0.07897677884018378,
      "grad_norm": 0.4733458161354065,
      "learning_rate": 5e-05,
      "loss": 2.7991,
      "step": 636
    },
    {
      "epoch": 0.07910095616540419,
      "grad_norm": 0.44228315353393555,
      "learning_rate": 5e-05,
      "loss": 2.6639,
      "step": 637
    },
    {
      "epoch": 0.07922513349062461,
      "grad_norm": 0.3555773198604584,
      "learning_rate": 5e-05,
      "loss": 1.9481,
      "step": 638
    },
    {
      "epoch": 0.07934931081584502,
      "grad_norm": 0.3030836582183838,
      "learning_rate": 5e-05,
      "loss": 1.9925,
      "step": 639
    },
    {
      "epoch": 0.07947348814106545,
      "grad_norm": 0.3075978457927704,
      "learning_rate": 5e-05,
      "loss": 2.4985,
      "step": 640
    },
    {
      "epoch": 0.07959766546628586,
      "grad_norm": 0.28234943747520447,
      "learning_rate": 5e-05,
      "loss": 1.8877,
      "step": 641
    },
    {
      "epoch": 0.07972184279150626,
      "grad_norm": 0.2820385694503784,
      "learning_rate": 5e-05,
      "loss": 1.9299,
      "step": 642
    },
    {
      "epoch": 0.07984602011672669,
      "grad_norm": 0.2545168995857239,
      "learning_rate": 5e-05,
      "loss": 1.7379,
      "step": 643
    },
    {
      "epoch": 0.0799701974419471,
      "grad_norm": 0.6520564556121826,
      "learning_rate": 5e-05,
      "loss": 2.7253,
      "step": 644
    },
    {
      "epoch": 0.08009437476716752,
      "grad_norm": 0.5718693733215332,
      "learning_rate": 5e-05,
      "loss": 2.8075,
      "step": 645
    },
    {
      "epoch": 0.08021855209238793,
      "grad_norm": 0.2914111018180847,
      "learning_rate": 5e-05,
      "loss": 2.0151,
      "step": 646
    },
    {
      "epoch": 0.08034272941760834,
      "grad_norm": 0.3657142221927643,
      "learning_rate": 5e-05,
      "loss": 2.2484,
      "step": 647
    },
    {
      "epoch": 0.08046690674282876,
      "grad_norm": 0.27595165371894836,
      "learning_rate": 5e-05,
      "loss": 1.8637,
      "step": 648
    },
    {
      "epoch": 0.08059108406804917,
      "grad_norm": 0.3122614324092865,
      "learning_rate": 5e-05,
      "loss": 2.0657,
      "step": 649
    },
    {
      "epoch": 0.0807152613932696,
      "grad_norm": 0.3301526606082916,
      "learning_rate": 5e-05,
      "loss": 2.1419,
      "step": 650
    },
    {
      "epoch": 0.08083943871849,
      "grad_norm": 0.28250741958618164,
      "learning_rate": 5e-05,
      "loss": 1.9938,
      "step": 651
    },
    {
      "epoch": 0.08096361604371041,
      "grad_norm": 0.3018810451030731,
      "learning_rate": 5e-05,
      "loss": 1.9527,
      "step": 652
    },
    {
      "epoch": 0.08108779336893084,
      "grad_norm": 0.27801814675331116,
      "learning_rate": 5e-05,
      "loss": 2.0605,
      "step": 653
    },
    {
      "epoch": 0.08121197069415124,
      "grad_norm": 0.5379852652549744,
      "learning_rate": 5e-05,
      "loss": 2.3631,
      "step": 654
    },
    {
      "epoch": 0.08133614801937167,
      "grad_norm": 0.2944119870662689,
      "learning_rate": 5e-05,
      "loss": 1.8594,
      "step": 655
    },
    {
      "epoch": 0.08146032534459208,
      "grad_norm": 0.40263888239860535,
      "learning_rate": 5e-05,
      "loss": 2.6047,
      "step": 656
    },
    {
      "epoch": 0.08158450266981249,
      "grad_norm": 0.3852522373199463,
      "learning_rate": 5e-05,
      "loss": 2.2848,
      "step": 657
    },
    {
      "epoch": 0.08170867999503291,
      "grad_norm": 0.277389258146286,
      "learning_rate": 5e-05,
      "loss": 1.9752,
      "step": 658
    },
    {
      "epoch": 0.08183285732025332,
      "grad_norm": 0.23953773081302643,
      "learning_rate": 5e-05,
      "loss": 1.9688,
      "step": 659
    },
    {
      "epoch": 0.08195703464547374,
      "grad_norm": 0.26224371790885925,
      "learning_rate": 5e-05,
      "loss": 1.9153,
      "step": 660
    },
    {
      "epoch": 0.08208121197069415,
      "grad_norm": 0.2478763610124588,
      "learning_rate": 5e-05,
      "loss": 1.6921,
      "step": 661
    },
    {
      "epoch": 0.08220538929591456,
      "grad_norm": 0.7691401243209839,
      "learning_rate": 5e-05,
      "loss": 3.6811,
      "step": 662
    },
    {
      "epoch": 0.08232956662113498,
      "grad_norm": 0.29780057072639465,
      "learning_rate": 5e-05,
      "loss": 2.0604,
      "step": 663
    },
    {
      "epoch": 0.08245374394635539,
      "grad_norm": 0.5676976442337036,
      "learning_rate": 5e-05,
      "loss": 2.7832,
      "step": 664
    },
    {
      "epoch": 0.08257792127157582,
      "grad_norm": 0.2499982863664627,
      "learning_rate": 5e-05,
      "loss": 1.9787,
      "step": 665
    },
    {
      "epoch": 0.08270209859679623,
      "grad_norm": 0.3072485029697418,
      "learning_rate": 5e-05,
      "loss": 1.9209,
      "step": 666
    },
    {
      "epoch": 0.08282627592201663,
      "grad_norm": 0.24421563744544983,
      "learning_rate": 5e-05,
      "loss": 1.81,
      "step": 667
    },
    {
      "epoch": 0.08295045324723706,
      "grad_norm": 0.29384368658065796,
      "learning_rate": 5e-05,
      "loss": 2.2303,
      "step": 668
    },
    {
      "epoch": 0.08307463057245747,
      "grad_norm": 0.3173346519470215,
      "learning_rate": 5e-05,
      "loss": 1.7589,
      "step": 669
    },
    {
      "epoch": 0.08319880789767789,
      "grad_norm": 0.3035511076450348,
      "learning_rate": 5e-05,
      "loss": 2.1347,
      "step": 670
    },
    {
      "epoch": 0.0833229852228983,
      "grad_norm": 0.2766481339931488,
      "learning_rate": 5e-05,
      "loss": 1.8904,
      "step": 671
    },
    {
      "epoch": 0.08344716254811871,
      "grad_norm": 0.27517154812812805,
      "learning_rate": 5e-05,
      "loss": 1.9532,
      "step": 672
    },
    {
      "epoch": 0.08357133987333913,
      "grad_norm": 0.2978760600090027,
      "learning_rate": 5e-05,
      "loss": 2.2585,
      "step": 673
    },
    {
      "epoch": 0.08369551719855954,
      "grad_norm": 0.33277857303619385,
      "learning_rate": 5e-05,
      "loss": 2.2466,
      "step": 674
    },
    {
      "epoch": 0.08381969452377996,
      "grad_norm": 0.31049874424934387,
      "learning_rate": 5e-05,
      "loss": 2.0607,
      "step": 675
    },
    {
      "epoch": 0.08394387184900037,
      "grad_norm": 0.2526696026325226,
      "learning_rate": 5e-05,
      "loss": 1.832,
      "step": 676
    },
    {
      "epoch": 0.08406804917422078,
      "grad_norm": 0.24298225343227386,
      "learning_rate": 5e-05,
      "loss": 1.9017,
      "step": 677
    },
    {
      "epoch": 0.0841922264994412,
      "grad_norm": 0.24344177544116974,
      "learning_rate": 5e-05,
      "loss": 1.833,
      "step": 678
    },
    {
      "epoch": 0.08431640382466161,
      "grad_norm": 0.23898719251155853,
      "learning_rate": 5e-05,
      "loss": 1.7999,
      "step": 679
    },
    {
      "epoch": 0.08444058114988204,
      "grad_norm": 0.25833937525749207,
      "learning_rate": 5e-05,
      "loss": 1.8702,
      "step": 680
    },
    {
      "epoch": 0.08456475847510245,
      "grad_norm": 0.22862203419208527,
      "learning_rate": 5e-05,
      "loss": 1.7092,
      "step": 681
    },
    {
      "epoch": 0.08468893580032286,
      "grad_norm": 0.2428145557641983,
      "learning_rate": 5e-05,
      "loss": 1.7779,
      "step": 682
    },
    {
      "epoch": 0.08481311312554328,
      "grad_norm": 0.3271627426147461,
      "learning_rate": 5e-05,
      "loss": 2.3873,
      "step": 683
    },
    {
      "epoch": 0.08493729045076369,
      "grad_norm": 0.2865424156188965,
      "learning_rate": 5e-05,
      "loss": 2.32,
      "step": 684
    },
    {
      "epoch": 0.08506146777598411,
      "grad_norm": 0.2696629762649536,
      "learning_rate": 5e-05,
      "loss": 1.9952,
      "step": 685
    },
    {
      "epoch": 0.08518564510120452,
      "grad_norm": 0.46669477224349976,
      "learning_rate": 5e-05,
      "loss": 2.5196,
      "step": 686
    },
    {
      "epoch": 0.08530982242642493,
      "grad_norm": 0.4242430627346039,
      "learning_rate": 5e-05,
      "loss": 2.4382,
      "step": 687
    },
    {
      "epoch": 0.08543399975164535,
      "grad_norm": 0.360166072845459,
      "learning_rate": 5e-05,
      "loss": 2.2533,
      "step": 688
    },
    {
      "epoch": 0.08555817707686576,
      "grad_norm": 0.28157690167427063,
      "learning_rate": 5e-05,
      "loss": 2.1017,
      "step": 689
    },
    {
      "epoch": 0.08568235440208617,
      "grad_norm": 0.2724866271018982,
      "learning_rate": 5e-05,
      "loss": 2.0147,
      "step": 690
    },
    {
      "epoch": 0.0858065317273066,
      "grad_norm": 0.2401788979768753,
      "learning_rate": 5e-05,
      "loss": 1.7621,
      "step": 691
    },
    {
      "epoch": 0.085930709052527,
      "grad_norm": 0.5512127876281738,
      "learning_rate": 5e-05,
      "loss": 3.1957,
      "step": 692
    },
    {
      "epoch": 0.08605488637774743,
      "grad_norm": 0.3149046301841736,
      "learning_rate": 5e-05,
      "loss": 2.0574,
      "step": 693
    },
    {
      "epoch": 0.08617906370296784,
      "grad_norm": 0.24976606667041779,
      "learning_rate": 5e-05,
      "loss": 2.0597,
      "step": 694
    },
    {
      "epoch": 0.08630324102818825,
      "grad_norm": 0.2638603746891022,
      "learning_rate": 5e-05,
      "loss": 1.8479,
      "step": 695
    },
    {
      "epoch": 0.08642741835340867,
      "grad_norm": 0.21984033286571503,
      "learning_rate": 5e-05,
      "loss": 1.7259,
      "step": 696
    },
    {
      "epoch": 0.08655159567862908,
      "grad_norm": 0.2649635970592499,
      "learning_rate": 5e-05,
      "loss": 2.1046,
      "step": 697
    },
    {
      "epoch": 0.0866757730038495,
      "grad_norm": 0.7213672399520874,
      "learning_rate": 5e-05,
      "loss": 3.2027,
      "step": 698
    },
    {
      "epoch": 0.08679995032906991,
      "grad_norm": 0.28230035305023193,
      "learning_rate": 5e-05,
      "loss": 2.0541,
      "step": 699
    },
    {
      "epoch": 0.08692412765429032,
      "grad_norm": 0.28091666102409363,
      "learning_rate": 5e-05,
      "loss": 1.5943,
      "step": 700
    },
    {
      "epoch": 0.08704830497951074,
      "grad_norm": 0.28518977761268616,
      "learning_rate": 5e-05,
      "loss": 1.9855,
      "step": 701
    },
    {
      "epoch": 0.08717248230473115,
      "grad_norm": 0.3630225658416748,
      "learning_rate": 5e-05,
      "loss": 2.6693,
      "step": 702
    },
    {
      "epoch": 0.08729665962995158,
      "grad_norm": 0.3029293715953827,
      "learning_rate": 5e-05,
      "loss": 1.9212,
      "step": 703
    },
    {
      "epoch": 0.08742083695517198,
      "grad_norm": 0.325604647397995,
      "learning_rate": 5e-05,
      "loss": 2.104,
      "step": 704
    },
    {
      "epoch": 0.0875450142803924,
      "grad_norm": 0.25055134296417236,
      "learning_rate": 5e-05,
      "loss": 2.0108,
      "step": 705
    },
    {
      "epoch": 0.08766919160561282,
      "grad_norm": 0.2693207859992981,
      "learning_rate": 5e-05,
      "loss": 2.0158,
      "step": 706
    },
    {
      "epoch": 0.08779336893083323,
      "grad_norm": 0.3679948151111603,
      "learning_rate": 5e-05,
      "loss": 2.136,
      "step": 707
    },
    {
      "epoch": 0.08791754625605365,
      "grad_norm": 0.2586674094200134,
      "learning_rate": 5e-05,
      "loss": 1.7522,
      "step": 708
    },
    {
      "epoch": 0.08804172358127406,
      "grad_norm": 0.23914387822151184,
      "learning_rate": 5e-05,
      "loss": 1.8264,
      "step": 709
    },
    {
      "epoch": 0.08816590090649447,
      "grad_norm": 0.24564284086227417,
      "learning_rate": 5e-05,
      "loss": 2.0949,
      "step": 710
    },
    {
      "epoch": 0.08829007823171489,
      "grad_norm": 0.3506222665309906,
      "learning_rate": 5e-05,
      "loss": 2.0817,
      "step": 711
    },
    {
      "epoch": 0.0884142555569353,
      "grad_norm": 0.3688604235649109,
      "learning_rate": 5e-05,
      "loss": 2.2708,
      "step": 712
    },
    {
      "epoch": 0.08853843288215572,
      "grad_norm": 0.4141845405101776,
      "learning_rate": 5e-05,
      "loss": 2.1846,
      "step": 713
    },
    {
      "epoch": 0.08866261020737613,
      "grad_norm": 0.2667691111564636,
      "learning_rate": 5e-05,
      "loss": 1.9375,
      "step": 714
    },
    {
      "epoch": 0.08878678753259654,
      "grad_norm": 0.34525224566459656,
      "learning_rate": 5e-05,
      "loss": 2.2076,
      "step": 715
    },
    {
      "epoch": 0.08891096485781697,
      "grad_norm": 0.3912832736968994,
      "learning_rate": 5e-05,
      "loss": 2.3614,
      "step": 716
    },
    {
      "epoch": 0.08903514218303737,
      "grad_norm": 0.4596518278121948,
      "learning_rate": 5e-05,
      "loss": 2.4385,
      "step": 717
    },
    {
      "epoch": 0.0891593195082578,
      "grad_norm": 0.28569549322128296,
      "learning_rate": 5e-05,
      "loss": 2.4532,
      "step": 718
    },
    {
      "epoch": 0.08928349683347821,
      "grad_norm": 0.3232335150241852,
      "learning_rate": 5e-05,
      "loss": 2.5114,
      "step": 719
    },
    {
      "epoch": 0.08940767415869862,
      "grad_norm": 0.24512383341789246,
      "learning_rate": 5e-05,
      "loss": 1.6351,
      "step": 720
    },
    {
      "epoch": 0.08953185148391904,
      "grad_norm": 0.40597257018089294,
      "learning_rate": 5e-05,
      "loss": 2.6137,
      "step": 721
    },
    {
      "epoch": 0.08965602880913945,
      "grad_norm": 0.3255784213542938,
      "learning_rate": 5e-05,
      "loss": 2.0508,
      "step": 722
    },
    {
      "epoch": 0.08978020613435987,
      "grad_norm": 0.40446966886520386,
      "learning_rate": 5e-05,
      "loss": 2.686,
      "step": 723
    },
    {
      "epoch": 0.08990438345958028,
      "grad_norm": 0.3603253662586212,
      "learning_rate": 5e-05,
      "loss": 2.6255,
      "step": 724
    },
    {
      "epoch": 0.09002856078480069,
      "grad_norm": 0.27847838401794434,
      "learning_rate": 5e-05,
      "loss": 1.9845,
      "step": 725
    },
    {
      "epoch": 0.09015273811002111,
      "grad_norm": 0.2638871669769287,
      "learning_rate": 5e-05,
      "loss": 1.9401,
      "step": 726
    },
    {
      "epoch": 0.09027691543524152,
      "grad_norm": 0.25534674525260925,
      "learning_rate": 5e-05,
      "loss": 1.8353,
      "step": 727
    },
    {
      "epoch": 0.09040109276046195,
      "grad_norm": 0.24471010267734528,
      "learning_rate": 5e-05,
      "loss": 1.8426,
      "step": 728
    },
    {
      "epoch": 0.09052527008568236,
      "grad_norm": 0.40118831396102905,
      "learning_rate": 5e-05,
      "loss": 2.9792,
      "step": 729
    },
    {
      "epoch": 0.09064944741090276,
      "grad_norm": 0.6646387577056885,
      "learning_rate": 5e-05,
      "loss": 3.0327,
      "step": 730
    },
    {
      "epoch": 0.09077362473612319,
      "grad_norm": 0.3027131259441376,
      "learning_rate": 5e-05,
      "loss": 2.0686,
      "step": 731
    },
    {
      "epoch": 0.0908978020613436,
      "grad_norm": 0.2986295819282532,
      "learning_rate": 5e-05,
      "loss": 2.8916,
      "step": 732
    },
    {
      "epoch": 0.09102197938656402,
      "grad_norm": 0.2983008325099945,
      "learning_rate": 5e-05,
      "loss": 2.0715,
      "step": 733
    },
    {
      "epoch": 0.09114615671178443,
      "grad_norm": 0.234079971909523,
      "learning_rate": 5e-05,
      "loss": 1.7109,
      "step": 734
    },
    {
      "epoch": 0.09127033403700484,
      "grad_norm": 0.3074970543384552,
      "learning_rate": 5e-05,
      "loss": 2.1104,
      "step": 735
    },
    {
      "epoch": 0.09139451136222526,
      "grad_norm": 0.2545653283596039,
      "learning_rate": 5e-05,
      "loss": 1.9592,
      "step": 736
    },
    {
      "epoch": 0.09151868868744567,
      "grad_norm": 0.2585062086582184,
      "learning_rate": 5e-05,
      "loss": 1.8301,
      "step": 737
    },
    {
      "epoch": 0.0916428660126661,
      "grad_norm": 0.22999894618988037,
      "learning_rate": 5e-05,
      "loss": 1.6784,
      "step": 738
    },
    {
      "epoch": 0.0917670433378865,
      "grad_norm": 0.2429080605506897,
      "learning_rate": 5e-05,
      "loss": 1.7051,
      "step": 739
    },
    {
      "epoch": 0.09189122066310691,
      "grad_norm": 0.4000047743320465,
      "learning_rate": 5e-05,
      "loss": 2.4653,
      "step": 740
    },
    {
      "epoch": 0.09201539798832734,
      "grad_norm": 0.26037660241127014,
      "learning_rate": 5e-05,
      "loss": 1.908,
      "step": 741
    },
    {
      "epoch": 0.09213957531354774,
      "grad_norm": 0.2336800992488861,
      "learning_rate": 5e-05,
      "loss": 1.9641,
      "step": 742
    },
    {
      "epoch": 0.09226375263876817,
      "grad_norm": 0.2122896909713745,
      "learning_rate": 5e-05,
      "loss": 1.6852,
      "step": 743
    },
    {
      "epoch": 0.09238792996398858,
      "grad_norm": 0.44178128242492676,
      "learning_rate": 5e-05,
      "loss": 2.5299,
      "step": 744
    },
    {
      "epoch": 0.09251210728920899,
      "grad_norm": 0.2383100986480713,
      "learning_rate": 5e-05,
      "loss": 1.6617,
      "step": 745
    },
    {
      "epoch": 0.09263628461442941,
      "grad_norm": 0.2937283515930176,
      "learning_rate": 5e-05,
      "loss": 1.9293,
      "step": 746
    },
    {
      "epoch": 0.09276046193964982,
      "grad_norm": 0.23060178756713867,
      "learning_rate": 5e-05,
      "loss": 1.965,
      "step": 747
    },
    {
      "epoch": 0.09288463926487023,
      "grad_norm": 0.2461223602294922,
      "learning_rate": 5e-05,
      "loss": 1.86,
      "step": 748
    },
    {
      "epoch": 0.09300881659009065,
      "grad_norm": 0.26430073380470276,
      "learning_rate": 5e-05,
      "loss": 1.8866,
      "step": 749
    },
    {
      "epoch": 0.09313299391531106,
      "grad_norm": 0.2722196578979492,
      "learning_rate": 5e-05,
      "loss": 2.168,
      "step": 750
    },
    {
      "epoch": 0.09325717124053148,
      "grad_norm": 0.24600358307361603,
      "learning_rate": 5e-05,
      "loss": 1.9163,
      "step": 751
    },
    {
      "epoch": 0.09338134856575189,
      "grad_norm": 0.3493156433105469,
      "learning_rate": 5e-05,
      "loss": 2.2273,
      "step": 752
    },
    {
      "epoch": 0.0935055258909723,
      "grad_norm": 0.3096140921115875,
      "learning_rate": 5e-05,
      "loss": 2.1582,
      "step": 753
    },
    {
      "epoch": 0.09362970321619273,
      "grad_norm": 0.26107022166252136,
      "learning_rate": 5e-05,
      "loss": 1.9407,
      "step": 754
    },
    {
      "epoch": 0.09375388054141313,
      "grad_norm": 0.3041000962257385,
      "learning_rate": 5e-05,
      "loss": 2.2585,
      "step": 755
    },
    {
      "epoch": 0.09387805786663356,
      "grad_norm": 0.26501205563545227,
      "learning_rate": 5e-05,
      "loss": 2.3782,
      "step": 756
    },
    {
      "epoch": 0.09400223519185397,
      "grad_norm": 0.27229952812194824,
      "learning_rate": 5e-05,
      "loss": 2.1154,
      "step": 757
    },
    {
      "epoch": 0.09412641251707438,
      "grad_norm": 0.2528907060623169,
      "learning_rate": 5e-05,
      "loss": 1.7321,
      "step": 758
    },
    {
      "epoch": 0.0942505898422948,
      "grad_norm": 0.22811026871204376,
      "learning_rate": 5e-05,
      "loss": 1.7883,
      "step": 759
    },
    {
      "epoch": 0.09437476716751521,
      "grad_norm": 0.2483462244272232,
      "learning_rate": 5e-05,
      "loss": 1.9824,
      "step": 760
    },
    {
      "epoch": 0.09449894449273563,
      "grad_norm": 0.2446499466896057,
      "learning_rate": 5e-05,
      "loss": 1.9688,
      "step": 761
    },
    {
      "epoch": 0.09462312181795604,
      "grad_norm": 0.25365975499153137,
      "learning_rate": 5e-05,
      "loss": 1.955,
      "step": 762
    },
    {
      "epoch": 0.09474729914317645,
      "grad_norm": 0.25691381096839905,
      "learning_rate": 5e-05,
      "loss": 2.0523,
      "step": 763
    },
    {
      "epoch": 0.09487147646839687,
      "grad_norm": 0.30339887738227844,
      "learning_rate": 5e-05,
      "loss": 2.2387,
      "step": 764
    },
    {
      "epoch": 0.09499565379361728,
      "grad_norm": 0.3994625210762024,
      "learning_rate": 5e-05,
      "loss": 2.7802,
      "step": 765
    },
    {
      "epoch": 0.0951198311188377,
      "grad_norm": 0.2273540496826172,
      "learning_rate": 5e-05,
      "loss": 1.8601,
      "step": 766
    },
    {
      "epoch": 0.09524400844405811,
      "grad_norm": 0.23096863925457,
      "learning_rate": 5e-05,
      "loss": 1.6603,
      "step": 767
    },
    {
      "epoch": 0.09536818576927852,
      "grad_norm": 0.23737122118473053,
      "learning_rate": 5e-05,
      "loss": 1.803,
      "step": 768
    },
    {
      "epoch": 0.09549236309449895,
      "grad_norm": 0.2674116790294647,
      "learning_rate": 5e-05,
      "loss": 1.9375,
      "step": 769
    },
    {
      "epoch": 0.09561654041971936,
      "grad_norm": 0.3963793218135834,
      "learning_rate": 5e-05,
      "loss": 2.2229,
      "step": 770
    },
    {
      "epoch": 0.09574071774493978,
      "grad_norm": 0.24932265281677246,
      "learning_rate": 5e-05,
      "loss": 1.9151,
      "step": 771
    },
    {
      "epoch": 0.09586489507016019,
      "grad_norm": 0.3672339618206024,
      "learning_rate": 5e-05,
      "loss": 1.9886,
      "step": 772
    },
    {
      "epoch": 0.0959890723953806,
      "grad_norm": 0.28162822127342224,
      "learning_rate": 5e-05,
      "loss": 1.8631,
      "step": 773
    },
    {
      "epoch": 0.09611324972060102,
      "grad_norm": 0.28446900844573975,
      "learning_rate": 5e-05,
      "loss": 1.9035,
      "step": 774
    },
    {
      "epoch": 0.09623742704582143,
      "grad_norm": 0.22119373083114624,
      "learning_rate": 5e-05,
      "loss": 1.6798,
      "step": 775
    },
    {
      "epoch": 0.09636160437104185,
      "grad_norm": 0.325965940952301,
      "learning_rate": 5e-05,
      "loss": 1.715,
      "step": 776
    },
    {
      "epoch": 0.09648578169626226,
      "grad_norm": 0.3543036878108978,
      "learning_rate": 5e-05,
      "loss": 2.0075,
      "step": 777
    },
    {
      "epoch": 0.09660995902148267,
      "grad_norm": 0.302958607673645,
      "learning_rate": 5e-05,
      "loss": 1.8459,
      "step": 778
    },
    {
      "epoch": 0.0967341363467031,
      "grad_norm": 0.2946341037750244,
      "learning_rate": 5e-05,
      "loss": 2.1246,
      "step": 779
    },
    {
      "epoch": 0.0968583136719235,
      "grad_norm": 0.29457908868789673,
      "learning_rate": 5e-05,
      "loss": 2.3041,
      "step": 780
    },
    {
      "epoch": 0.09698249099714393,
      "grad_norm": 0.5821194052696228,
      "learning_rate": 5e-05,
      "loss": 2.9414,
      "step": 781
    },
    {
      "epoch": 0.09710666832236434,
      "grad_norm": 0.32491669058799744,
      "learning_rate": 5e-05,
      "loss": 2.2702,
      "step": 782
    },
    {
      "epoch": 0.09723084564758475,
      "grad_norm": 0.2968323528766632,
      "learning_rate": 5e-05,
      "loss": 2.3479,
      "step": 783
    },
    {
      "epoch": 0.09735502297280517,
      "grad_norm": 0.6173321604728699,
      "learning_rate": 5e-05,
      "loss": 3.1077,
      "step": 784
    },
    {
      "epoch": 0.09747920029802558,
      "grad_norm": 0.40393519401550293,
      "learning_rate": 5e-05,
      "loss": 2.0843,
      "step": 785
    },
    {
      "epoch": 0.097603377623246,
      "grad_norm": 0.3294332027435303,
      "learning_rate": 5e-05,
      "loss": 1.8889,
      "step": 786
    },
    {
      "epoch": 0.09772755494846641,
      "grad_norm": 0.45853391289711,
      "learning_rate": 5e-05,
      "loss": 2.1967,
      "step": 787
    },
    {
      "epoch": 0.09785173227368682,
      "grad_norm": 0.3437069058418274,
      "learning_rate": 5e-05,
      "loss": 1.9014,
      "step": 788
    },
    {
      "epoch": 0.09797590959890724,
      "grad_norm": 0.30439493060112,
      "learning_rate": 5e-05,
      "loss": 2.0923,
      "step": 789
    },
    {
      "epoch": 0.09810008692412765,
      "grad_norm": 0.32713377475738525,
      "learning_rate": 5e-05,
      "loss": 1.7945,
      "step": 790
    },
    {
      "epoch": 0.09822426424934808,
      "grad_norm": 0.28058183193206787,
      "learning_rate": 5e-05,
      "loss": 1.7459,
      "step": 791
    },
    {
      "epoch": 0.09834844157456848,
      "grad_norm": 0.2603336572647095,
      "learning_rate": 5e-05,
      "loss": 1.942,
      "step": 792
    },
    {
      "epoch": 0.0984726188997889,
      "grad_norm": 0.2959796190261841,
      "learning_rate": 5e-05,
      "loss": 2.2251,
      "step": 793
    },
    {
      "epoch": 0.09859679622500932,
      "grad_norm": 0.24663518369197845,
      "learning_rate": 5e-05,
      "loss": 1.88,
      "step": 794
    },
    {
      "epoch": 0.09872097355022973,
      "grad_norm": 0.3397309482097626,
      "learning_rate": 5e-05,
      "loss": 2.0779,
      "step": 795
    },
    {
      "epoch": 0.09884515087545015,
      "grad_norm": 0.2475767284631729,
      "learning_rate": 5e-05,
      "loss": 1.7452,
      "step": 796
    },
    {
      "epoch": 0.09896932820067056,
      "grad_norm": 0.3029365539550781,
      "learning_rate": 5e-05,
      "loss": 2.0652,
      "step": 797
    },
    {
      "epoch": 0.09909350552589097,
      "grad_norm": 0.2678433656692505,
      "learning_rate": 5e-05,
      "loss": 1.9127,
      "step": 798
    },
    {
      "epoch": 0.09921768285111139,
      "grad_norm": 0.35326072573661804,
      "learning_rate": 5e-05,
      "loss": 2.0838,
      "step": 799
    },
    {
      "epoch": 0.0993418601763318,
      "grad_norm": 0.28843721747398376,
      "learning_rate": 5e-05,
      "loss": 2.1572,
      "step": 800
    },
    {
      "epoch": 0.09946603750155221,
      "grad_norm": 0.24140127003192902,
      "learning_rate": 5e-05,
      "loss": 1.6219,
      "step": 801
    },
    {
      "epoch": 0.09959021482677263,
      "grad_norm": 0.29560938477516174,
      "learning_rate": 5e-05,
      "loss": 1.8265,
      "step": 802
    },
    {
      "epoch": 0.09971439215199304,
      "grad_norm": 0.31561002135276794,
      "learning_rate": 5e-05,
      "loss": 2.0694,
      "step": 803
    },
    {
      "epoch": 0.09983856947721347,
      "grad_norm": 0.3077153265476227,
      "learning_rate": 5e-05,
      "loss": 2.3872,
      "step": 804
    },
    {
      "epoch": 0.09996274680243387,
      "grad_norm": 0.24623873829841614,
      "learning_rate": 5e-05,
      "loss": 1.7888,
      "step": 805
    },
    {
      "epoch": 0.10008692412765428,
      "grad_norm": 0.27619126439094543,
      "learning_rate": 5e-05,
      "loss": 2.1839,
      "step": 806
    },
    {
      "epoch": 0.1002111014528747,
      "grad_norm": 0.33211326599121094,
      "learning_rate": 5e-05,
      "loss": 2.2991,
      "step": 807
    },
    {
      "epoch": 0.10033527877809512,
      "grad_norm": 0.23164010047912598,
      "learning_rate": 5e-05,
      "loss": 1.5602,
      "step": 808
    },
    {
      "epoch": 0.10045945610331554,
      "grad_norm": 0.2822321951389313,
      "learning_rate": 5e-05,
      "loss": 1.94,
      "step": 809
    },
    {
      "epoch": 0.10058363342853595,
      "grad_norm": 0.2520303428173065,
      "learning_rate": 5e-05,
      "loss": 2.0901,
      "step": 810
    },
    {
      "epoch": 0.10070781075375636,
      "grad_norm": 0.26948827505111694,
      "learning_rate": 5e-05,
      "loss": 2.1365,
      "step": 811
    },
    {
      "epoch": 0.10083198807897678,
      "grad_norm": 0.382692813873291,
      "learning_rate": 5e-05,
      "loss": 2.1824,
      "step": 812
    },
    {
      "epoch": 0.10095616540419719,
      "grad_norm": 0.22778475284576416,
      "learning_rate": 5e-05,
      "loss": 2.0242,
      "step": 813
    },
    {
      "epoch": 0.10108034272941761,
      "grad_norm": 0.43782931566238403,
      "learning_rate": 5e-05,
      "loss": 3.1766,
      "step": 814
    },
    {
      "epoch": 0.10120452005463802,
      "grad_norm": 0.25693511962890625,
      "learning_rate": 5e-05,
      "loss": 2.0156,
      "step": 815
    },
    {
      "epoch": 0.10132869737985843,
      "grad_norm": 0.2677198052406311,
      "learning_rate": 5e-05,
      "loss": 1.7291,
      "step": 816
    },
    {
      "epoch": 0.10145287470507885,
      "grad_norm": 0.2706223428249359,
      "learning_rate": 5e-05,
      "loss": 1.9196,
      "step": 817
    },
    {
      "epoch": 0.10157705203029926,
      "grad_norm": 0.30248013138771057,
      "learning_rate": 5e-05,
      "loss": 2.1137,
      "step": 818
    },
    {
      "epoch": 0.10170122935551969,
      "grad_norm": 0.25752121210098267,
      "learning_rate": 5e-05,
      "loss": 1.8943,
      "step": 819
    },
    {
      "epoch": 0.1018254066807401,
      "grad_norm": 0.2458408623933792,
      "learning_rate": 5e-05,
      "loss": 1.9843,
      "step": 820
    },
    {
      "epoch": 0.1019495840059605,
      "grad_norm": 0.2543642818927765,
      "learning_rate": 5e-05,
      "loss": 1.8824,
      "step": 821
    },
    {
      "epoch": 0.10207376133118093,
      "grad_norm": 0.5759515762329102,
      "learning_rate": 5e-05,
      "loss": 2.5496,
      "step": 822
    },
    {
      "epoch": 0.10219793865640134,
      "grad_norm": 0.24595996737480164,
      "learning_rate": 5e-05,
      "loss": 1.763,
      "step": 823
    },
    {
      "epoch": 0.10232211598162176,
      "grad_norm": 0.3513668477535248,
      "learning_rate": 5e-05,
      "loss": 2.1594,
      "step": 824
    },
    {
      "epoch": 0.10244629330684217,
      "grad_norm": 0.24765171110630035,
      "learning_rate": 5e-05,
      "loss": 1.9873,
      "step": 825
    },
    {
      "epoch": 0.10257047063206258,
      "grad_norm": 0.23468390107154846,
      "learning_rate": 5e-05,
      "loss": 1.6796,
      "step": 826
    },
    {
      "epoch": 0.102694647957283,
      "grad_norm": 0.38637110590934753,
      "learning_rate": 5e-05,
      "loss": 2.0828,
      "step": 827
    },
    {
      "epoch": 0.10281882528250341,
      "grad_norm": 0.22323277592658997,
      "learning_rate": 5e-05,
      "loss": 1.642,
      "step": 828
    },
    {
      "epoch": 0.10294300260772384,
      "grad_norm": 0.2797977030277252,
      "learning_rate": 5e-05,
      "loss": 1.8465,
      "step": 829
    },
    {
      "epoch": 0.10306717993294424,
      "grad_norm": 0.24816101789474487,
      "learning_rate": 5e-05,
      "loss": 1.9725,
      "step": 830
    },
    {
      "epoch": 0.10319135725816465,
      "grad_norm": 0.3066013753414154,
      "learning_rate": 5e-05,
      "loss": 2.4379,
      "step": 831
    },
    {
      "epoch": 0.10331553458338508,
      "grad_norm": 0.41610953211784363,
      "learning_rate": 5e-05,
      "loss": 2.9505,
      "step": 832
    },
    {
      "epoch": 0.10343971190860549,
      "grad_norm": 0.24125410616397858,
      "learning_rate": 5e-05,
      "loss": 1.6854,
      "step": 833
    },
    {
      "epoch": 0.10356388923382591,
      "grad_norm": 0.3574509918689728,
      "learning_rate": 5e-05,
      "loss": 2.0999,
      "step": 834
    },
    {
      "epoch": 0.10368806655904632,
      "grad_norm": 0.23841390013694763,
      "learning_rate": 5e-05,
      "loss": 1.7081,
      "step": 835
    },
    {
      "epoch": 0.10381224388426673,
      "grad_norm": 0.32144802808761597,
      "learning_rate": 5e-05,
      "loss": 2.5213,
      "step": 836
    },
    {
      "epoch": 0.10393642120948715,
      "grad_norm": 0.28795325756073,
      "learning_rate": 5e-05,
      "loss": 2.4315,
      "step": 837
    },
    {
      "epoch": 0.10406059853470756,
      "grad_norm": 0.23300907015800476,
      "learning_rate": 5e-05,
      "loss": 1.7849,
      "step": 838
    },
    {
      "epoch": 0.10418477585992798,
      "grad_norm": 0.25263527035713196,
      "learning_rate": 5e-05,
      "loss": 1.9377,
      "step": 839
    },
    {
      "epoch": 0.10430895318514839,
      "grad_norm": 0.37186625599861145,
      "learning_rate": 5e-05,
      "loss": 2.9579,
      "step": 840
    },
    {
      "epoch": 0.1044331305103688,
      "grad_norm": 0.3031153380870819,
      "learning_rate": 5e-05,
      "loss": 1.8852,
      "step": 841
    },
    {
      "epoch": 0.10455730783558922,
      "grad_norm": 0.31639477610588074,
      "learning_rate": 5e-05,
      "loss": 2.7184,
      "step": 842
    },
    {
      "epoch": 0.10468148516080963,
      "grad_norm": 0.24418902397155762,
      "learning_rate": 5e-05,
      "loss": 1.855,
      "step": 843
    },
    {
      "epoch": 0.10480566248603006,
      "grad_norm": 0.22167858481407166,
      "learning_rate": 5e-05,
      "loss": 1.6351,
      "step": 844
    },
    {
      "epoch": 0.10492983981125047,
      "grad_norm": 0.27623358368873596,
      "learning_rate": 5e-05,
      "loss": 1.9165,
      "step": 845
    },
    {
      "epoch": 0.10505401713647088,
      "grad_norm": 0.24267208576202393,
      "learning_rate": 5e-05,
      "loss": 1.8563,
      "step": 846
    },
    {
      "epoch": 0.1051781944616913,
      "grad_norm": 0.24272559583187103,
      "learning_rate": 5e-05,
      "loss": 2.029,
      "step": 847
    },
    {
      "epoch": 0.10530237178691171,
      "grad_norm": 0.2580758035182953,
      "learning_rate": 5e-05,
      "loss": 2.0239,
      "step": 848
    },
    {
      "epoch": 0.10542654911213213,
      "grad_norm": 0.25721096992492676,
      "learning_rate": 5e-05,
      "loss": 2.1841,
      "step": 849
    },
    {
      "epoch": 0.10555072643735254,
      "grad_norm": 0.27631187438964844,
      "learning_rate": 5e-05,
      "loss": 2.0753,
      "step": 850
    },
    {
      "epoch": 0.10567490376257295,
      "grad_norm": 0.23685285449028015,
      "learning_rate": 5e-05,
      "loss": 2.1299,
      "step": 851
    },
    {
      "epoch": 0.10579908108779337,
      "grad_norm": 0.362529993057251,
      "learning_rate": 5e-05,
      "loss": 2.4725,
      "step": 852
    },
    {
      "epoch": 0.10592325841301378,
      "grad_norm": 0.24620841443538666,
      "learning_rate": 5e-05,
      "loss": 1.689,
      "step": 853
    },
    {
      "epoch": 0.1060474357382342,
      "grad_norm": 0.39088621735572815,
      "learning_rate": 5e-05,
      "loss": 2.2395,
      "step": 854
    },
    {
      "epoch": 0.10617161306345461,
      "grad_norm": 0.25166064500808716,
      "learning_rate": 5e-05,
      "loss": 1.9069,
      "step": 855
    },
    {
      "epoch": 0.10629579038867502,
      "grad_norm": 0.3524984121322632,
      "learning_rate": 5e-05,
      "loss": 2.343,
      "step": 856
    },
    {
      "epoch": 0.10641996771389545,
      "grad_norm": 0.24170979857444763,
      "learning_rate": 5e-05,
      "loss": 1.5245,
      "step": 857
    },
    {
      "epoch": 0.10654414503911586,
      "grad_norm": 0.2690974473953247,
      "learning_rate": 5e-05,
      "loss": 1.8784,
      "step": 858
    },
    {
      "epoch": 0.10666832236433627,
      "grad_norm": 0.4175858199596405,
      "learning_rate": 5e-05,
      "loss": 2.54,
      "step": 859
    },
    {
      "epoch": 0.10679249968955669,
      "grad_norm": 0.2780891954898834,
      "learning_rate": 5e-05,
      "loss": 2.0745,
      "step": 860
    },
    {
      "epoch": 0.1069166770147771,
      "grad_norm": 0.2890850007534027,
      "learning_rate": 5e-05,
      "loss": 2.1256,
      "step": 861
    },
    {
      "epoch": 0.10704085433999752,
      "grad_norm": 0.3829166889190674,
      "learning_rate": 5e-05,
      "loss": 2.3878,
      "step": 862
    },
    {
      "epoch": 0.10716503166521793,
      "grad_norm": 0.4972594082355499,
      "learning_rate": 5e-05,
      "loss": 3.0912,
      "step": 863
    },
    {
      "epoch": 0.10728920899043834,
      "grad_norm": 0.428373783826828,
      "learning_rate": 5e-05,
      "loss": 3.0987,
      "step": 864
    },
    {
      "epoch": 0.10741338631565876,
      "grad_norm": 0.2967165410518646,
      "learning_rate": 5e-05,
      "loss": 2.1655,
      "step": 865
    },
    {
      "epoch": 0.10753756364087917,
      "grad_norm": 0.3932843804359436,
      "learning_rate": 5e-05,
      "loss": 2.4387,
      "step": 866
    },
    {
      "epoch": 0.1076617409660996,
      "grad_norm": 0.3399292826652527,
      "learning_rate": 5e-05,
      "loss": 2.3679,
      "step": 867
    },
    {
      "epoch": 0.10778591829132,
      "grad_norm": 0.3172128200531006,
      "learning_rate": 5e-05,
      "loss": 2.1567,
      "step": 868
    },
    {
      "epoch": 0.10791009561654041,
      "grad_norm": 0.23311318457126617,
      "learning_rate": 5e-05,
      "loss": 1.5103,
      "step": 869
    },
    {
      "epoch": 0.10803427294176084,
      "grad_norm": 0.28969600796699524,
      "learning_rate": 5e-05,
      "loss": 1.6748,
      "step": 870
    },
    {
      "epoch": 0.10815845026698125,
      "grad_norm": 0.34855031967163086,
      "learning_rate": 5e-05,
      "loss": 2.2776,
      "step": 871
    },
    {
      "epoch": 0.10828262759220167,
      "grad_norm": 0.32641398906707764,
      "learning_rate": 5e-05,
      "loss": 2.1035,
      "step": 872
    },
    {
      "epoch": 0.10840680491742208,
      "grad_norm": 0.2550683319568634,
      "learning_rate": 5e-05,
      "loss": 1.8585,
      "step": 873
    },
    {
      "epoch": 0.10853098224264249,
      "grad_norm": 0.2957420349121094,
      "learning_rate": 5e-05,
      "loss": 2.2075,
      "step": 874
    },
    {
      "epoch": 0.10865515956786291,
      "grad_norm": 0.2820521295070648,
      "learning_rate": 5e-05,
      "loss": 1.9231,
      "step": 875
    },
    {
      "epoch": 0.10877933689308332,
      "grad_norm": 0.3224237263202667,
      "learning_rate": 5e-05,
      "loss": 2.6275,
      "step": 876
    },
    {
      "epoch": 0.10890351421830374,
      "grad_norm": 0.32133105397224426,
      "learning_rate": 5e-05,
      "loss": 2.0473,
      "step": 877
    },
    {
      "epoch": 0.10902769154352415,
      "grad_norm": 0.30259227752685547,
      "learning_rate": 5e-05,
      "loss": 2.3739,
      "step": 878
    },
    {
      "epoch": 0.10915186886874456,
      "grad_norm": 0.2607637941837311,
      "learning_rate": 5e-05,
      "loss": 1.7886,
      "step": 879
    },
    {
      "epoch": 0.10927604619396498,
      "grad_norm": 0.23737330734729767,
      "learning_rate": 5e-05,
      "loss": 1.9364,
      "step": 880
    },
    {
      "epoch": 0.1094002235191854,
      "grad_norm": 0.366264671087265,
      "learning_rate": 5e-05,
      "loss": 2.5266,
      "step": 881
    },
    {
      "epoch": 0.10952440084440582,
      "grad_norm": 0.22696363925933838,
      "learning_rate": 5e-05,
      "loss": 1.7637,
      "step": 882
    },
    {
      "epoch": 0.10964857816962623,
      "grad_norm": 0.34759801626205444,
      "learning_rate": 5e-05,
      "loss": 2.638,
      "step": 883
    },
    {
      "epoch": 0.10977275549484664,
      "grad_norm": 0.36980926990509033,
      "learning_rate": 5e-05,
      "loss": 2.0731,
      "step": 884
    },
    {
      "epoch": 0.10989693282006706,
      "grad_norm": 0.2537945508956909,
      "learning_rate": 5e-05,
      "loss": 1.7732,
      "step": 885
    },
    {
      "epoch": 0.11002111014528747,
      "grad_norm": 0.32599031925201416,
      "learning_rate": 5e-05,
      "loss": 2.2379,
      "step": 886
    },
    {
      "epoch": 0.11014528747050789,
      "grad_norm": 0.2296784669160843,
      "learning_rate": 5e-05,
      "loss": 1.9002,
      "step": 887
    },
    {
      "epoch": 0.1102694647957283,
      "grad_norm": 0.24791423976421356,
      "learning_rate": 5e-05,
      "loss": 1.8496,
      "step": 888
    },
    {
      "epoch": 0.11039364212094871,
      "grad_norm": 0.24951361119747162,
      "learning_rate": 5e-05,
      "loss": 1.9118,
      "step": 889
    },
    {
      "epoch": 0.11051781944616913,
      "grad_norm": 0.2583346664905548,
      "learning_rate": 5e-05,
      "loss": 1.9558,
      "step": 890
    },
    {
      "epoch": 0.11064199677138954,
      "grad_norm": 0.6806591749191284,
      "learning_rate": 5e-05,
      "loss": 2.7708,
      "step": 891
    },
    {
      "epoch": 0.11076617409660997,
      "grad_norm": 0.28599515557289124,
      "learning_rate": 5e-05,
      "loss": 1.8723,
      "step": 892
    },
    {
      "epoch": 0.11089035142183037,
      "grad_norm": 0.3603532910346985,
      "learning_rate": 5e-05,
      "loss": 2.1735,
      "step": 893
    },
    {
      "epoch": 0.11101452874705078,
      "grad_norm": 0.28333306312561035,
      "learning_rate": 5e-05,
      "loss": 1.9305,
      "step": 894
    },
    {
      "epoch": 0.1111387060722712,
      "grad_norm": 0.3318665027618408,
      "learning_rate": 5e-05,
      "loss": 2.1284,
      "step": 895
    },
    {
      "epoch": 0.11126288339749162,
      "grad_norm": 0.32923001050949097,
      "learning_rate": 5e-05,
      "loss": 2.1328,
      "step": 896
    },
    {
      "epoch": 0.11138706072271204,
      "grad_norm": 0.41261720657348633,
      "learning_rate": 5e-05,
      "loss": 2.6938,
      "step": 897
    },
    {
      "epoch": 0.11151123804793245,
      "grad_norm": 0.3548716604709625,
      "learning_rate": 5e-05,
      "loss": 2.0738,
      "step": 898
    },
    {
      "epoch": 0.11163541537315286,
      "grad_norm": 0.2646797001361847,
      "learning_rate": 5e-05,
      "loss": 1.8559,
      "step": 899
    },
    {
      "epoch": 0.11175959269837328,
      "grad_norm": 0.31071344017982483,
      "learning_rate": 5e-05,
      "loss": 2.0802,
      "step": 900
    },
    {
      "epoch": 0.11188377002359369,
      "grad_norm": 0.22349640727043152,
      "learning_rate": 5e-05,
      "loss": 1.6962,
      "step": 901
    },
    {
      "epoch": 0.11200794734881411,
      "grad_norm": 0.3751986026763916,
      "learning_rate": 5e-05,
      "loss": 2.2044,
      "step": 902
    },
    {
      "epoch": 0.11213212467403452,
      "grad_norm": 0.23499399423599243,
      "learning_rate": 5e-05,
      "loss": 1.7119,
      "step": 903
    },
    {
      "epoch": 0.11225630199925493,
      "grad_norm": 0.2599724531173706,
      "learning_rate": 5e-05,
      "loss": 1.7784,
      "step": 904
    },
    {
      "epoch": 0.11238047932447535,
      "grad_norm": 0.24458616971969604,
      "learning_rate": 5e-05,
      "loss": 1.7294,
      "step": 905
    },
    {
      "epoch": 0.11250465664969576,
      "grad_norm": 0.2781731188297272,
      "learning_rate": 5e-05,
      "loss": 2.0202,
      "step": 906
    },
    {
      "epoch": 0.11262883397491619,
      "grad_norm": 0.22873641550540924,
      "learning_rate": 5e-05,
      "loss": 1.7724,
      "step": 907
    },
    {
      "epoch": 0.1127530113001366,
      "grad_norm": 0.27547910809516907,
      "learning_rate": 5e-05,
      "loss": 2.1615,
      "step": 908
    },
    {
      "epoch": 0.112877188625357,
      "grad_norm": 0.35256701707839966,
      "learning_rate": 5e-05,
      "loss": 2.1046,
      "step": 909
    },
    {
      "epoch": 0.11300136595057743,
      "grad_norm": 0.31568098068237305,
      "learning_rate": 5e-05,
      "loss": 2.2322,
      "step": 910
    },
    {
      "epoch": 0.11312554327579784,
      "grad_norm": 0.3242977559566498,
      "learning_rate": 5e-05,
      "loss": 2.2185,
      "step": 911
    },
    {
      "epoch": 0.11324972060101825,
      "grad_norm": 0.30523544549942017,
      "learning_rate": 5e-05,
      "loss": 2.3313,
      "step": 912
    },
    {
      "epoch": 0.11337389792623867,
      "grad_norm": 0.22899942100048065,
      "learning_rate": 5e-05,
      "loss": 1.9237,
      "step": 913
    },
    {
      "epoch": 0.11349807525145908,
      "grad_norm": 0.2607531249523163,
      "learning_rate": 5e-05,
      "loss": 1.7515,
      "step": 914
    },
    {
      "epoch": 0.1136222525766795,
      "grad_norm": 0.25846919417381287,
      "learning_rate": 5e-05,
      "loss": 1.8115,
      "step": 915
    },
    {
      "epoch": 0.11374642990189991,
      "grad_norm": 0.36639493703842163,
      "learning_rate": 5e-05,
      "loss": 2.5123,
      "step": 916
    },
    {
      "epoch": 0.11387060722712032,
      "grad_norm": 0.24815653264522552,
      "learning_rate": 5e-05,
      "loss": 1.8082,
      "step": 917
    },
    {
      "epoch": 0.11399478455234074,
      "grad_norm": 0.23351258039474487,
      "learning_rate": 5e-05,
      "loss": 1.87,
      "step": 918
    },
    {
      "epoch": 0.11411896187756115,
      "grad_norm": 0.31201139092445374,
      "learning_rate": 5e-05,
      "loss": 2.3676,
      "step": 919
    },
    {
      "epoch": 0.11424313920278158,
      "grad_norm": 0.27010735869407654,
      "learning_rate": 5e-05,
      "loss": 2.1338,
      "step": 920
    },
    {
      "epoch": 0.11436731652800199,
      "grad_norm": 0.2572576403617859,
      "learning_rate": 5e-05,
      "loss": 2.1985,
      "step": 921
    },
    {
      "epoch": 0.1144914938532224,
      "grad_norm": 0.2479707896709442,
      "learning_rate": 5e-05,
      "loss": 2.0943,
      "step": 922
    },
    {
      "epoch": 0.11461567117844282,
      "grad_norm": 0.24821355938911438,
      "learning_rate": 5e-05,
      "loss": 2.0318,
      "step": 923
    },
    {
      "epoch": 0.11473984850366323,
      "grad_norm": 0.3458319902420044,
      "learning_rate": 5e-05,
      "loss": 2.4627,
      "step": 924
    },
    {
      "epoch": 0.11486402582888365,
      "grad_norm": 0.2778370976448059,
      "learning_rate": 5e-05,
      "loss": 2.0825,
      "step": 925
    },
    {
      "epoch": 0.11498820315410406,
      "grad_norm": 0.24979355931282043,
      "learning_rate": 5e-05,
      "loss": 1.9581,
      "step": 926
    },
    {
      "epoch": 0.11511238047932447,
      "grad_norm": 0.24766133725643158,
      "learning_rate": 5e-05,
      "loss": 1.9789,
      "step": 927
    },
    {
      "epoch": 0.11523655780454489,
      "grad_norm": 0.27076855301856995,
      "learning_rate": 5e-05,
      "loss": 2.3324,
      "step": 928
    },
    {
      "epoch": 0.1153607351297653,
      "grad_norm": 0.24753974378108978,
      "learning_rate": 5e-05,
      "loss": 1.8434,
      "step": 929
    },
    {
      "epoch": 0.11548491245498572,
      "grad_norm": 0.3660670220851898,
      "learning_rate": 5e-05,
      "loss": 2.412,
      "step": 930
    },
    {
      "epoch": 0.11560908978020613,
      "grad_norm": 0.25543397665023804,
      "learning_rate": 5e-05,
      "loss": 1.8726,
      "step": 931
    },
    {
      "epoch": 0.11573326710542654,
      "grad_norm": 0.5722286105155945,
      "learning_rate": 5e-05,
      "loss": 2.9469,
      "step": 932
    },
    {
      "epoch": 0.11585744443064697,
      "grad_norm": 0.24585482478141785,
      "learning_rate": 5e-05,
      "loss": 1.8847,
      "step": 933
    },
    {
      "epoch": 0.11598162175586738,
      "grad_norm": 0.3858698904514313,
      "learning_rate": 5e-05,
      "loss": 2.2881,
      "step": 934
    },
    {
      "epoch": 0.1161057990810878,
      "grad_norm": 0.679387092590332,
      "learning_rate": 5e-05,
      "loss": 3.9892,
      "step": 935
    },
    {
      "epoch": 0.11622997640630821,
      "grad_norm": 0.4026963412761688,
      "learning_rate": 5e-05,
      "loss": 2.43,
      "step": 936
    },
    {
      "epoch": 0.11635415373152862,
      "grad_norm": 0.3264620304107666,
      "learning_rate": 5e-05,
      "loss": 2.5949,
      "step": 937
    },
    {
      "epoch": 0.11647833105674904,
      "grad_norm": 0.2738242447376251,
      "learning_rate": 5e-05,
      "loss": 1.8355,
      "step": 938
    },
    {
      "epoch": 0.11660250838196945,
      "grad_norm": 0.30453240871429443,
      "learning_rate": 5e-05,
      "loss": 1.804,
      "step": 939
    },
    {
      "epoch": 0.11672668570718987,
      "grad_norm": 0.30571305751800537,
      "learning_rate": 5e-05,
      "loss": 2.1956,
      "step": 940
    },
    {
      "epoch": 0.11685086303241028,
      "grad_norm": 0.2804155945777893,
      "learning_rate": 5e-05,
      "loss": 1.7701,
      "step": 941
    },
    {
      "epoch": 0.11697504035763069,
      "grad_norm": 0.3185891807079315,
      "learning_rate": 5e-05,
      "loss": 2.2808,
      "step": 942
    },
    {
      "epoch": 0.11709921768285111,
      "grad_norm": 0.2636656165122986,
      "learning_rate": 5e-05,
      "loss": 2.0351,
      "step": 943
    },
    {
      "epoch": 0.11722339500807152,
      "grad_norm": 0.2993179261684418,
      "learning_rate": 5e-05,
      "loss": 2.0193,
      "step": 944
    },
    {
      "epoch": 0.11734757233329195,
      "grad_norm": 0.35081735253334045,
      "learning_rate": 5e-05,
      "loss": 2.2608,
      "step": 945
    },
    {
      "epoch": 0.11747174965851236,
      "grad_norm": 0.23226995766162872,
      "learning_rate": 5e-05,
      "loss": 1.7364,
      "step": 946
    },
    {
      "epoch": 0.11759592698373277,
      "grad_norm": 0.3048912286758423,
      "learning_rate": 5e-05,
      "loss": 2.0342,
      "step": 947
    },
    {
      "epoch": 0.11772010430895319,
      "grad_norm": 0.25601980090141296,
      "learning_rate": 5e-05,
      "loss": 1.8795,
      "step": 948
    },
    {
      "epoch": 0.1178442816341736,
      "grad_norm": 0.31035560369491577,
      "learning_rate": 5e-05,
      "loss": 2.201,
      "step": 949
    },
    {
      "epoch": 0.11796845895939402,
      "grad_norm": 0.2591751515865326,
      "learning_rate": 5e-05,
      "loss": 1.8405,
      "step": 950
    },
    {
      "epoch": 0.11809263628461443,
      "grad_norm": 0.3209805190563202,
      "learning_rate": 5e-05,
      "loss": 2.2541,
      "step": 951
    },
    {
      "epoch": 0.11821681360983484,
      "grad_norm": 0.30173051357269287,
      "learning_rate": 5e-05,
      "loss": 2.313,
      "step": 952
    },
    {
      "epoch": 0.11834099093505526,
      "grad_norm": 0.2397630214691162,
      "learning_rate": 5e-05,
      "loss": 1.8164,
      "step": 953
    },
    {
      "epoch": 0.11846516826027567,
      "grad_norm": 0.24437163770198822,
      "learning_rate": 5e-05,
      "loss": 1.9928,
      "step": 954
    },
    {
      "epoch": 0.1185893455854961,
      "grad_norm": 0.4401412606239319,
      "learning_rate": 5e-05,
      "loss": 2.5289,
      "step": 955
    },
    {
      "epoch": 0.1187135229107165,
      "grad_norm": 0.41325151920318604,
      "learning_rate": 5e-05,
      "loss": 2.6033,
      "step": 956
    },
    {
      "epoch": 0.11883770023593691,
      "grad_norm": 0.23168908059597015,
      "learning_rate": 5e-05,
      "loss": 1.7914,
      "step": 957
    },
    {
      "epoch": 0.11896187756115734,
      "grad_norm": 0.3848232626914978,
      "learning_rate": 5e-05,
      "loss": 2.2646,
      "step": 958
    },
    {
      "epoch": 0.11908605488637775,
      "grad_norm": 0.39556726813316345,
      "learning_rate": 5e-05,
      "loss": 2.1765,
      "step": 959
    },
    {
      "epoch": 0.11921023221159817,
      "grad_norm": 0.31372812390327454,
      "learning_rate": 5e-05,
      "loss": 2.0435,
      "step": 960
    },
    {
      "epoch": 0.11933440953681858,
      "grad_norm": 0.5253868103027344,
      "learning_rate": 5e-05,
      "loss": 2.3224,
      "step": 961
    },
    {
      "epoch": 0.11945858686203899,
      "grad_norm": 0.3625740110874176,
      "learning_rate": 5e-05,
      "loss": 2.0779,
      "step": 962
    },
    {
      "epoch": 0.11958276418725941,
      "grad_norm": 0.24666467308998108,
      "learning_rate": 5e-05,
      "loss": 1.7768,
      "step": 963
    },
    {
      "epoch": 0.11970694151247982,
      "grad_norm": 1.0668760538101196,
      "learning_rate": 5e-05,
      "loss": 3.7203,
      "step": 964
    },
    {
      "epoch": 0.11983111883770024,
      "grad_norm": 0.2652861773967743,
      "learning_rate": 5e-05,
      "loss": 1.8322,
      "step": 965
    },
    {
      "epoch": 0.11995529616292065,
      "grad_norm": 0.5147027373313904,
      "learning_rate": 5e-05,
      "loss": 2.3742,
      "step": 966
    },
    {
      "epoch": 0.12007947348814106,
      "grad_norm": 0.692245602607727,
      "learning_rate": 5e-05,
      "loss": 2.5479,
      "step": 967
    },
    {
      "epoch": 0.12020365081336148,
      "grad_norm": 0.2837624251842499,
      "learning_rate": 5e-05,
      "loss": 2.2053,
      "step": 968
    },
    {
      "epoch": 0.1203278281385819,
      "grad_norm": 0.34765708446502686,
      "learning_rate": 5e-05,
      "loss": 2.9103,
      "step": 969
    },
    {
      "epoch": 0.1204520054638023,
      "grad_norm": 0.4444332420825958,
      "learning_rate": 5e-05,
      "loss": 2.5352,
      "step": 970
    },
    {
      "epoch": 0.12057618278902273,
      "grad_norm": 0.40752092003822327,
      "learning_rate": 5e-05,
      "loss": 2.3765,
      "step": 971
    },
    {
      "epoch": 0.12070036011424314,
      "grad_norm": 0.26922377943992615,
      "learning_rate": 5e-05,
      "loss": 2.0827,
      "step": 972
    },
    {
      "epoch": 0.12082453743946356,
      "grad_norm": 0.26593759655952454,
      "learning_rate": 5e-05,
      "loss": 1.7902,
      "step": 973
    },
    {
      "epoch": 0.12094871476468397,
      "grad_norm": 0.3797745704650879,
      "learning_rate": 5e-05,
      "loss": 2.4203,
      "step": 974
    },
    {
      "epoch": 0.12107289208990438,
      "grad_norm": 0.28492528200149536,
      "learning_rate": 5e-05,
      "loss": 1.8963,
      "step": 975
    },
    {
      "epoch": 0.1211970694151248,
      "grad_norm": 0.35106533765792847,
      "learning_rate": 5e-05,
      "loss": 2.001,
      "step": 976
    },
    {
      "epoch": 0.12132124674034521,
      "grad_norm": 0.30248552560806274,
      "learning_rate": 5e-05,
      "loss": 1.8161,
      "step": 977
    },
    {
      "epoch": 0.12144542406556563,
      "grad_norm": 0.2563718259334564,
      "learning_rate": 5e-05,
      "loss": 1.766,
      "step": 978
    },
    {
      "epoch": 0.12156960139078604,
      "grad_norm": 0.32553622126579285,
      "learning_rate": 5e-05,
      "loss": 2.3881,
      "step": 979
    },
    {
      "epoch": 0.12169377871600645,
      "grad_norm": 0.2741480767726898,
      "learning_rate": 5e-05,
      "loss": 2.12,
      "step": 980
    },
    {
      "epoch": 0.12181795604122687,
      "grad_norm": 0.3366210162639618,
      "learning_rate": 5e-05,
      "loss": 1.9177,
      "step": 981
    },
    {
      "epoch": 0.12194213336644728,
      "grad_norm": 0.31167927384376526,
      "learning_rate": 5e-05,
      "loss": 1.9777,
      "step": 982
    },
    {
      "epoch": 0.1220663106916677,
      "grad_norm": 0.310498982667923,
      "learning_rate": 5e-05,
      "loss": 2.22,
      "step": 983
    },
    {
      "epoch": 0.12219048801688812,
      "grad_norm": 0.3025086224079132,
      "learning_rate": 5e-05,
      "loss": 2.2006,
      "step": 984
    },
    {
      "epoch": 0.12231466534210853,
      "grad_norm": 0.2378969043493271,
      "learning_rate": 5e-05,
      "loss": 1.9422,
      "step": 985
    },
    {
      "epoch": 0.12243884266732895,
      "grad_norm": 0.28100481629371643,
      "learning_rate": 5e-05,
      "loss": 2.1352,
      "step": 986
    },
    {
      "epoch": 0.12256301999254936,
      "grad_norm": 0.3556027114391327,
      "learning_rate": 5e-05,
      "loss": 2.6645,
      "step": 987
    },
    {
      "epoch": 0.12268719731776978,
      "grad_norm": 0.2855495512485504,
      "learning_rate": 5e-05,
      "loss": 1.8554,
      "step": 988
    },
    {
      "epoch": 0.12281137464299019,
      "grad_norm": 0.27533024549484253,
      "learning_rate": 5e-05,
      "loss": 1.9915,
      "step": 989
    },
    {
      "epoch": 0.1229355519682106,
      "grad_norm": 0.2480265200138092,
      "learning_rate": 5e-05,
      "loss": 1.7773,
      "step": 990
    },
    {
      "epoch": 0.12305972929343102,
      "grad_norm": 0.5346510410308838,
      "learning_rate": 5e-05,
      "loss": 2.8553,
      "step": 991
    },
    {
      "epoch": 0.12318390661865143,
      "grad_norm": 0.26068994402885437,
      "learning_rate": 5e-05,
      "loss": 2.0096,
      "step": 992
    },
    {
      "epoch": 0.12330808394387185,
      "grad_norm": 0.4033184051513672,
      "learning_rate": 5e-05,
      "loss": 2.6374,
      "step": 993
    },
    {
      "epoch": 0.12343226126909226,
      "grad_norm": 0.2643042802810669,
      "learning_rate": 5e-05,
      "loss": 1.8803,
      "step": 994
    },
    {
      "epoch": 0.12355643859431267,
      "grad_norm": 0.3660152852535248,
      "learning_rate": 5e-05,
      "loss": 2.3213,
      "step": 995
    },
    {
      "epoch": 0.1236806159195331,
      "grad_norm": 0.23946939408779144,
      "learning_rate": 5e-05,
      "loss": 1.8943,
      "step": 996
    },
    {
      "epoch": 0.1238047932447535,
      "grad_norm": 0.3469591438770294,
      "learning_rate": 5e-05,
      "loss": 2.2684,
      "step": 997
    },
    {
      "epoch": 0.12392897056997393,
      "grad_norm": 0.2437586784362793,
      "learning_rate": 5e-05,
      "loss": 1.993,
      "step": 998
    },
    {
      "epoch": 0.12405314789519434,
      "grad_norm": 0.2569863498210907,
      "learning_rate": 5e-05,
      "loss": 2.2131,
      "step": 999
    },
    {
      "epoch": 0.12417732522041475,
      "grad_norm": 0.26156288385391235,
      "learning_rate": 5e-05,
      "loss": 1.9116,
      "step": 1000
    },
    {
      "epoch": 0.12430150254563517,
      "grad_norm": 0.24384045600891113,
      "learning_rate": 5e-05,
      "loss": 1.9923,
      "step": 1001
    },
    {
      "epoch": 0.12442567987085558,
      "grad_norm": 0.32400116324424744,
      "learning_rate": 5e-05,
      "loss": 2.5213,
      "step": 1002
    },
    {
      "epoch": 0.124549857196076,
      "grad_norm": 0.2604520916938782,
      "learning_rate": 5e-05,
      "loss": 1.9388,
      "step": 1003
    },
    {
      "epoch": 0.12467403452129641,
      "grad_norm": 0.27235329151153564,
      "learning_rate": 5e-05,
      "loss": 2.0165,
      "step": 1004
    },
    {
      "epoch": 0.12479821184651682,
      "grad_norm": 0.33321765065193176,
      "learning_rate": 5e-05,
      "loss": 2.4184,
      "step": 1005
    },
    {
      "epoch": 0.12492238917173724,
      "grad_norm": 0.22587352991104126,
      "learning_rate": 5e-05,
      "loss": 1.7306,
      "step": 1006
    },
    {
      "epoch": 0.12504656649695767,
      "grad_norm": 0.25614914298057556,
      "learning_rate": 5e-05,
      "loss": 1.898,
      "step": 1007
    },
    {
      "epoch": 0.12517074382217808,
      "grad_norm": 0.3783401548862457,
      "learning_rate": 5e-05,
      "loss": 2.7309,
      "step": 1008
    },
    {
      "epoch": 0.12529492114739849,
      "grad_norm": 0.281352698802948,
      "learning_rate": 5e-05,
      "loss": 1.736,
      "step": 1009
    },
    {
      "epoch": 0.1254190984726189,
      "grad_norm": 0.26021233201026917,
      "learning_rate": 5e-05,
      "loss": 1.8002,
      "step": 1010
    },
    {
      "epoch": 0.1255432757978393,
      "grad_norm": 0.2724604308605194,
      "learning_rate": 5e-05,
      "loss": 2.1816,
      "step": 1011
    },
    {
      "epoch": 0.12566745312305974,
      "grad_norm": 0.2835272550582886,
      "learning_rate": 5e-05,
      "loss": 2.614,
      "step": 1012
    },
    {
      "epoch": 0.12579163044828015,
      "grad_norm": 0.25480642914772034,
      "learning_rate": 5e-05,
      "loss": 2.086,
      "step": 1013
    },
    {
      "epoch": 0.12591580777350056,
      "grad_norm": 0.3954196274280548,
      "learning_rate": 5e-05,
      "loss": 2.0803,
      "step": 1014
    },
    {
      "epoch": 0.12603998509872097,
      "grad_norm": 0.5192334651947021,
      "learning_rate": 5e-05,
      "loss": 3.2472,
      "step": 1015
    },
    {
      "epoch": 0.12616416242394138,
      "grad_norm": 0.2652159631252289,
      "learning_rate": 5e-05,
      "loss": 2.113,
      "step": 1016
    },
    {
      "epoch": 0.12628833974916182,
      "grad_norm": 0.27216076850891113,
      "learning_rate": 5e-05,
      "loss": 1.9084,
      "step": 1017
    },
    {
      "epoch": 0.12641251707438222,
      "grad_norm": 0.28878965973854065,
      "learning_rate": 5e-05,
      "loss": 2.0184,
      "step": 1018
    },
    {
      "epoch": 0.12653669439960263,
      "grad_norm": 0.2580112814903259,
      "learning_rate": 5e-05,
      "loss": 1.7244,
      "step": 1019
    },
    {
      "epoch": 0.12666087172482304,
      "grad_norm": 0.26858070492744446,
      "learning_rate": 5e-05,
      "loss": 1.9107,
      "step": 1020
    },
    {
      "epoch": 0.12678504905004345,
      "grad_norm": 0.28445541858673096,
      "learning_rate": 5e-05,
      "loss": 2.0212,
      "step": 1021
    },
    {
      "epoch": 0.1269092263752639,
      "grad_norm": 0.2333497256040573,
      "learning_rate": 5e-05,
      "loss": 1.7624,
      "step": 1022
    },
    {
      "epoch": 0.1270334037004843,
      "grad_norm": 0.31717449426651,
      "learning_rate": 5e-05,
      "loss": 2.3561,
      "step": 1023
    },
    {
      "epoch": 0.1271575810257047,
      "grad_norm": 0.26815950870513916,
      "learning_rate": 5e-05,
      "loss": 1.8738,
      "step": 1024
    },
    {
      "epoch": 0.12728175835092512,
      "grad_norm": 0.38293471932411194,
      "learning_rate": 5e-05,
      "loss": 2.283,
      "step": 1025
    },
    {
      "epoch": 0.12740593567614553,
      "grad_norm": 0.5300688743591309,
      "learning_rate": 5e-05,
      "loss": 2.8997,
      "step": 1026
    },
    {
      "epoch": 0.12753011300136596,
      "grad_norm": 0.33331796526908875,
      "learning_rate": 5e-05,
      "loss": 2.5145,
      "step": 1027
    },
    {
      "epoch": 0.12765429032658637,
      "grad_norm": 0.24202688038349152,
      "learning_rate": 5e-05,
      "loss": 1.7676,
      "step": 1028
    },
    {
      "epoch": 0.12777846765180678,
      "grad_norm": 0.23438231647014618,
      "learning_rate": 5e-05,
      "loss": 1.7615,
      "step": 1029
    },
    {
      "epoch": 0.1279026449770272,
      "grad_norm": 0.2875107526779175,
      "learning_rate": 5e-05,
      "loss": 1.7874,
      "step": 1030
    },
    {
      "epoch": 0.1280268223022476,
      "grad_norm": 0.22003595530986786,
      "learning_rate": 5e-05,
      "loss": 1.596,
      "step": 1031
    },
    {
      "epoch": 0.12815099962746804,
      "grad_norm": 0.26276060938835144,
      "learning_rate": 5e-05,
      "loss": 1.9154,
      "step": 1032
    },
    {
      "epoch": 0.12827517695268845,
      "grad_norm": 0.36533546447753906,
      "learning_rate": 5e-05,
      "loss": 2.8755,
      "step": 1033
    },
    {
      "epoch": 0.12839935427790886,
      "grad_norm": 0.38885048031806946,
      "learning_rate": 5e-05,
      "loss": 2.9473,
      "step": 1034
    },
    {
      "epoch": 0.12852353160312927,
      "grad_norm": 0.2708134949207306,
      "learning_rate": 5e-05,
      "loss": 1.9407,
      "step": 1035
    },
    {
      "epoch": 0.12864770892834967,
      "grad_norm": 0.22453922033309937,
      "learning_rate": 5e-05,
      "loss": 1.7948,
      "step": 1036
    },
    {
      "epoch": 0.1287718862535701,
      "grad_norm": 0.3211478292942047,
      "learning_rate": 5e-05,
      "loss": 2.0837,
      "step": 1037
    },
    {
      "epoch": 0.12889606357879052,
      "grad_norm": 0.2573651671409607,
      "learning_rate": 5e-05,
      "loss": 1.9984,
      "step": 1038
    },
    {
      "epoch": 0.12902024090401093,
      "grad_norm": 0.3328755795955658,
      "learning_rate": 5e-05,
      "loss": 2.0742,
      "step": 1039
    },
    {
      "epoch": 0.12914441822923134,
      "grad_norm": 0.36100730299949646,
      "learning_rate": 5e-05,
      "loss": 2.1482,
      "step": 1040
    },
    {
      "epoch": 0.12926859555445175,
      "grad_norm": 0.3397010564804077,
      "learning_rate": 5e-05,
      "loss": 2.6753,
      "step": 1041
    },
    {
      "epoch": 0.12939277287967219,
      "grad_norm": 0.29403823614120483,
      "learning_rate": 5e-05,
      "loss": 2.1762,
      "step": 1042
    },
    {
      "epoch": 0.1295169502048926,
      "grad_norm": 0.3259550929069519,
      "learning_rate": 5e-05,
      "loss": 2.0438,
      "step": 1043
    },
    {
      "epoch": 0.129641127530113,
      "grad_norm": 0.2814289927482605,
      "learning_rate": 5e-05,
      "loss": 2.1891,
      "step": 1044
    },
    {
      "epoch": 0.1297653048553334,
      "grad_norm": 0.2861133813858032,
      "learning_rate": 5e-05,
      "loss": 1.9424,
      "step": 1045
    },
    {
      "epoch": 0.12988948218055382,
      "grad_norm": 0.2853018641471863,
      "learning_rate": 5e-05,
      "loss": 2.0572,
      "step": 1046
    },
    {
      "epoch": 0.13001365950577426,
      "grad_norm": 0.321277379989624,
      "learning_rate": 5e-05,
      "loss": 2.4332,
      "step": 1047
    },
    {
      "epoch": 0.13013783683099467,
      "grad_norm": 0.2422984093427658,
      "learning_rate": 5e-05,
      "loss": 1.8778,
      "step": 1048
    },
    {
      "epoch": 0.13026201415621508,
      "grad_norm": 0.2669890522956848,
      "learning_rate": 5e-05,
      "loss": 2.0212,
      "step": 1049
    },
    {
      "epoch": 0.1303861914814355,
      "grad_norm": 0.24418428540229797,
      "learning_rate": 5e-05,
      "loss": 1.9481,
      "step": 1050
    },
    {
      "epoch": 0.1305103688066559,
      "grad_norm": 0.2489718794822693,
      "learning_rate": 5e-05,
      "loss": 2.1197,
      "step": 1051
    },
    {
      "epoch": 0.1306345461318763,
      "grad_norm": 0.2919555902481079,
      "learning_rate": 5e-05,
      "loss": 2.1435,
      "step": 1052
    },
    {
      "epoch": 0.13075872345709674,
      "grad_norm": 0.2646684944629669,
      "learning_rate": 5e-05,
      "loss": 2.173,
      "step": 1053
    },
    {
      "epoch": 0.13088290078231715,
      "grad_norm": 0.3247489333152771,
      "learning_rate": 5e-05,
      "loss": 2.2599,
      "step": 1054
    },
    {
      "epoch": 0.13100707810753756,
      "grad_norm": 0.22721542418003082,
      "learning_rate": 5e-05,
      "loss": 1.7981,
      "step": 1055
    },
    {
      "epoch": 0.13113125543275797,
      "grad_norm": 0.4916575253009796,
      "learning_rate": 5e-05,
      "loss": 2.5025,
      "step": 1056
    },
    {
      "epoch": 0.13125543275797838,
      "grad_norm": 0.45959606766700745,
      "learning_rate": 5e-05,
      "loss": 2.8821,
      "step": 1057
    },
    {
      "epoch": 0.13137961008319882,
      "grad_norm": 0.25712233781814575,
      "learning_rate": 5e-05,
      "loss": 1.6615,
      "step": 1058
    },
    {
      "epoch": 0.13150378740841923,
      "grad_norm": 0.3775932788848877,
      "learning_rate": 5e-05,
      "loss": 1.9113,
      "step": 1059
    },
    {
      "epoch": 0.13162796473363964,
      "grad_norm": 0.6293278932571411,
      "learning_rate": 5e-05,
      "loss": 2.4153,
      "step": 1060
    },
    {
      "epoch": 0.13175214205886004,
      "grad_norm": 0.3483099043369293,
      "learning_rate": 5e-05,
      "loss": 2.0118,
      "step": 1061
    },
    {
      "epoch": 0.13187631938408045,
      "grad_norm": 0.3565744161605835,
      "learning_rate": 5e-05,
      "loss": 2.3465,
      "step": 1062
    },
    {
      "epoch": 0.1320004967093009,
      "grad_norm": 0.3302151560783386,
      "learning_rate": 5e-05,
      "loss": 1.9891,
      "step": 1063
    },
    {
      "epoch": 0.1321246740345213,
      "grad_norm": 0.7692415714263916,
      "learning_rate": 5e-05,
      "loss": 1.9401,
      "step": 1064
    },
    {
      "epoch": 0.1322488513597417,
      "grad_norm": 0.3344350755214691,
      "learning_rate": 5e-05,
      "loss": 2.1948,
      "step": 1065
    },
    {
      "epoch": 0.13237302868496212,
      "grad_norm": 0.2954474985599518,
      "learning_rate": 5e-05,
      "loss": 1.9716,
      "step": 1066
    },
    {
      "epoch": 0.13249720601018253,
      "grad_norm": 0.5076240301132202,
      "learning_rate": 5e-05,
      "loss": 2.9537,
      "step": 1067
    },
    {
      "epoch": 0.13262138333540296,
      "grad_norm": 0.2375306636095047,
      "learning_rate": 5e-05,
      "loss": 1.7894,
      "step": 1068
    },
    {
      "epoch": 0.13274556066062337,
      "grad_norm": 0.5773283243179321,
      "learning_rate": 5e-05,
      "loss": 2.7361,
      "step": 1069
    },
    {
      "epoch": 0.13286973798584378,
      "grad_norm": 0.3737553358078003,
      "learning_rate": 5e-05,
      "loss": 2.1509,
      "step": 1070
    },
    {
      "epoch": 0.1329939153110642,
      "grad_norm": 0.2960174083709717,
      "learning_rate": 5e-05,
      "loss": 2.3799,
      "step": 1071
    },
    {
      "epoch": 0.1331180926362846,
      "grad_norm": 0.28043243288993835,
      "learning_rate": 5e-05,
      "loss": 2.1211,
      "step": 1072
    },
    {
      "epoch": 0.13324226996150504,
      "grad_norm": 0.28315070271492004,
      "learning_rate": 5e-05,
      "loss": 2.0942,
      "step": 1073
    },
    {
      "epoch": 0.13336644728672545,
      "grad_norm": 0.2449692040681839,
      "learning_rate": 5e-05,
      "loss": 1.7595,
      "step": 1074
    },
    {
      "epoch": 0.13349062461194586,
      "grad_norm": 0.6175221800804138,
      "learning_rate": 5e-05,
      "loss": 2.8706,
      "step": 1075
    },
    {
      "epoch": 0.13361480193716627,
      "grad_norm": 0.37083110213279724,
      "learning_rate": 5e-05,
      "loss": 2.5191,
      "step": 1076
    },
    {
      "epoch": 0.13373897926238668,
      "grad_norm": 0.25019583106040955,
      "learning_rate": 5e-05,
      "loss": 2.0465,
      "step": 1077
    },
    {
      "epoch": 0.1338631565876071,
      "grad_norm": 0.256204754114151,
      "learning_rate": 5e-05,
      "loss": 1.8876,
      "step": 1078
    },
    {
      "epoch": 0.13398733391282752,
      "grad_norm": 0.29824960231781006,
      "learning_rate": 5e-05,
      "loss": 2.1895,
      "step": 1079
    },
    {
      "epoch": 0.13411151123804793,
      "grad_norm": 0.24536696076393127,
      "learning_rate": 5e-05,
      "loss": 1.7937,
      "step": 1080
    },
    {
      "epoch": 0.13423568856326834,
      "grad_norm": 0.47522780299186707,
      "learning_rate": 5e-05,
      "loss": 2.2545,
      "step": 1081
    },
    {
      "epoch": 0.13435986588848875,
      "grad_norm": 0.4264921545982361,
      "learning_rate": 5e-05,
      "loss": 2.792,
      "step": 1082
    },
    {
      "epoch": 0.1344840432137092,
      "grad_norm": 0.23045669496059418,
      "learning_rate": 5e-05,
      "loss": 1.8701,
      "step": 1083
    },
    {
      "epoch": 0.1346082205389296,
      "grad_norm": 0.4328882694244385,
      "learning_rate": 5e-05,
      "loss": 2.7582,
      "step": 1084
    },
    {
      "epoch": 0.13473239786415,
      "grad_norm": 0.31502556800842285,
      "learning_rate": 5e-05,
      "loss": 2.5346,
      "step": 1085
    },
    {
      "epoch": 0.13485657518937041,
      "grad_norm": 0.3627992868423462,
      "learning_rate": 5e-05,
      "loss": 2.3319,
      "step": 1086
    },
    {
      "epoch": 0.13498075251459082,
      "grad_norm": 0.3795703649520874,
      "learning_rate": 5e-05,
      "loss": 2.2837,
      "step": 1087
    },
    {
      "epoch": 0.13510492983981126,
      "grad_norm": 0.3328198492527008,
      "learning_rate": 5e-05,
      "loss": 2.5716,
      "step": 1088
    },
    {
      "epoch": 0.13522910716503167,
      "grad_norm": 0.2691793739795685,
      "learning_rate": 5e-05,
      "loss": 1.8648,
      "step": 1089
    },
    {
      "epoch": 0.13535328449025208,
      "grad_norm": 0.2132241129875183,
      "learning_rate": 5e-05,
      "loss": 1.6364,
      "step": 1090
    },
    {
      "epoch": 0.1354774618154725,
      "grad_norm": 0.29721713066101074,
      "learning_rate": 5e-05,
      "loss": 2.3337,
      "step": 1091
    },
    {
      "epoch": 0.1356016391406929,
      "grad_norm": 0.24550172686576843,
      "learning_rate": 5e-05,
      "loss": 1.7892,
      "step": 1092
    },
    {
      "epoch": 0.13572581646591333,
      "grad_norm": 0.3057241439819336,
      "learning_rate": 5e-05,
      "loss": 2.2008,
      "step": 1093
    },
    {
      "epoch": 0.13584999379113374,
      "grad_norm": 0.42028123140335083,
      "learning_rate": 5e-05,
      "loss": 2.4991,
      "step": 1094
    },
    {
      "epoch": 0.13597417111635415,
      "grad_norm": 0.34639716148376465,
      "learning_rate": 5e-05,
      "loss": 2.4221,
      "step": 1095
    },
    {
      "epoch": 0.13609834844157456,
      "grad_norm": 0.2971496284008026,
      "learning_rate": 5e-05,
      "loss": 1.9329,
      "step": 1096
    },
    {
      "epoch": 0.13622252576679497,
      "grad_norm": 0.2966279685497284,
      "learning_rate": 5e-05,
      "loss": 2.1465,
      "step": 1097
    },
    {
      "epoch": 0.1363467030920154,
      "grad_norm": 0.2975577414035797,
      "learning_rate": 5e-05,
      "loss": 2.3422,
      "step": 1098
    },
    {
      "epoch": 0.13647088041723582,
      "grad_norm": 0.5118456482887268,
      "learning_rate": 5e-05,
      "loss": 2.5421,
      "step": 1099
    },
    {
      "epoch": 0.13659505774245623,
      "grad_norm": 0.23964305222034454,
      "learning_rate": 5e-05,
      "loss": 1.9165,
      "step": 1100
    },
    {
      "epoch": 0.13671923506767664,
      "grad_norm": 0.30365464091300964,
      "learning_rate": 5e-05,
      "loss": 1.9171,
      "step": 1101
    },
    {
      "epoch": 0.13684341239289705,
      "grad_norm": 0.2908100187778473,
      "learning_rate": 5e-05,
      "loss": 1.7971,
      "step": 1102
    },
    {
      "epoch": 0.13696758971811748,
      "grad_norm": 0.3548651337623596,
      "learning_rate": 5e-05,
      "loss": 2.6751,
      "step": 1103
    },
    {
      "epoch": 0.1370917670433379,
      "grad_norm": 0.3089209198951721,
      "learning_rate": 5e-05,
      "loss": 2.2546,
      "step": 1104
    },
    {
      "epoch": 0.1372159443685583,
      "grad_norm": 0.29616862535476685,
      "learning_rate": 5e-05,
      "loss": 2.1639,
      "step": 1105
    },
    {
      "epoch": 0.1373401216937787,
      "grad_norm": 0.31919291615486145,
      "learning_rate": 5e-05,
      "loss": 2.4508,
      "step": 1106
    },
    {
      "epoch": 0.13746429901899912,
      "grad_norm": 0.2513790428638458,
      "learning_rate": 5e-05,
      "loss": 2.0057,
      "step": 1107
    },
    {
      "epoch": 0.13758847634421956,
      "grad_norm": 0.33529070019721985,
      "learning_rate": 5e-05,
      "loss": 2.4737,
      "step": 1108
    },
    {
      "epoch": 0.13771265366943997,
      "grad_norm": 0.25810202956199646,
      "learning_rate": 5e-05,
      "loss": 2.0787,
      "step": 1109
    },
    {
      "epoch": 0.13783683099466038,
      "grad_norm": 0.27952781319618225,
      "learning_rate": 5e-05,
      "loss": 2.151,
      "step": 1110
    },
    {
      "epoch": 0.13796100831988078,
      "grad_norm": 0.22980237007141113,
      "learning_rate": 5e-05,
      "loss": 1.7528,
      "step": 1111
    },
    {
      "epoch": 0.1380851856451012,
      "grad_norm": 0.45032209157943726,
      "learning_rate": 5e-05,
      "loss": 2.5959,
      "step": 1112
    },
    {
      "epoch": 0.13820936297032163,
      "grad_norm": 0.22644434869289398,
      "learning_rate": 5e-05,
      "loss": 1.7315,
      "step": 1113
    },
    {
      "epoch": 0.13833354029554204,
      "grad_norm": 0.27581727504730225,
      "learning_rate": 5e-05,
      "loss": 2.2056,
      "step": 1114
    },
    {
      "epoch": 0.13845771762076245,
      "grad_norm": 0.32302621006965637,
      "learning_rate": 5e-05,
      "loss": 2.6313,
      "step": 1115
    },
    {
      "epoch": 0.13858189494598286,
      "grad_norm": 0.3314933776855469,
      "learning_rate": 5e-05,
      "loss": 2.3385,
      "step": 1116
    },
    {
      "epoch": 0.13870607227120327,
      "grad_norm": 0.4746491014957428,
      "learning_rate": 5e-05,
      "loss": 3.0895,
      "step": 1117
    },
    {
      "epoch": 0.1388302495964237,
      "grad_norm": 0.2554611563682556,
      "learning_rate": 5e-05,
      "loss": 1.8501,
      "step": 1118
    },
    {
      "epoch": 0.13895442692164411,
      "grad_norm": 0.3268207013607025,
      "learning_rate": 5e-05,
      "loss": 2.7787,
      "step": 1119
    },
    {
      "epoch": 0.13907860424686452,
      "grad_norm": 0.40559980273246765,
      "learning_rate": 5e-05,
      "loss": 2.3169,
      "step": 1120
    },
    {
      "epoch": 0.13920278157208493,
      "grad_norm": 0.27972233295440674,
      "learning_rate": 5e-05,
      "loss": 1.9973,
      "step": 1121
    },
    {
      "epoch": 0.13932695889730534,
      "grad_norm": 0.2509663701057434,
      "learning_rate": 5e-05,
      "loss": 1.9772,
      "step": 1122
    },
    {
      "epoch": 0.13945113622252578,
      "grad_norm": 0.2372690737247467,
      "learning_rate": 5e-05,
      "loss": 1.8282,
      "step": 1123
    },
    {
      "epoch": 0.1395753135477462,
      "grad_norm": 0.33050277829170227,
      "learning_rate": 5e-05,
      "loss": 2.3587,
      "step": 1124
    },
    {
      "epoch": 0.1396994908729666,
      "grad_norm": 0.4594133496284485,
      "learning_rate": 5e-05,
      "loss": 2.6167,
      "step": 1125
    },
    {
      "epoch": 0.139823668198187,
      "grad_norm": 0.2318199723958969,
      "learning_rate": 5e-05,
      "loss": 1.7646,
      "step": 1126
    },
    {
      "epoch": 0.13994784552340742,
      "grad_norm": 0.2286657989025116,
      "learning_rate": 5e-05,
      "loss": 1.8169,
      "step": 1127
    },
    {
      "epoch": 0.14007202284862785,
      "grad_norm": 0.2952748239040375,
      "learning_rate": 5e-05,
      "loss": 1.8384,
      "step": 1128
    },
    {
      "epoch": 0.14019620017384826,
      "grad_norm": 0.2604459226131439,
      "learning_rate": 5e-05,
      "loss": 1.9408,
      "step": 1129
    },
    {
      "epoch": 0.14032037749906867,
      "grad_norm": 0.33005622029304504,
      "learning_rate": 5e-05,
      "loss": 2.5149,
      "step": 1130
    },
    {
      "epoch": 0.14044455482428908,
      "grad_norm": 0.5335607528686523,
      "learning_rate": 5e-05,
      "loss": 2.7443,
      "step": 1131
    },
    {
      "epoch": 0.1405687321495095,
      "grad_norm": 0.29719600081443787,
      "learning_rate": 5e-05,
      "loss": 2.2798,
      "step": 1132
    },
    {
      "epoch": 0.14069290947472993,
      "grad_norm": 0.27328968048095703,
      "learning_rate": 5e-05,
      "loss": 2.0366,
      "step": 1133
    },
    {
      "epoch": 0.14081708679995034,
      "grad_norm": 0.23124265670776367,
      "learning_rate": 5e-05,
      "loss": 1.811,
      "step": 1134
    },
    {
      "epoch": 0.14094126412517075,
      "grad_norm": 0.2638339400291443,
      "learning_rate": 5e-05,
      "loss": 1.8189,
      "step": 1135
    },
    {
      "epoch": 0.14106544145039115,
      "grad_norm": 0.26248520612716675,
      "learning_rate": 5e-05,
      "loss": 2.0001,
      "step": 1136
    },
    {
      "epoch": 0.14118961877561156,
      "grad_norm": 0.2610619068145752,
      "learning_rate": 5e-05,
      "loss": 2.1195,
      "step": 1137
    },
    {
      "epoch": 0.141313796100832,
      "grad_norm": 0.23357811570167542,
      "learning_rate": 5e-05,
      "loss": 1.7947,
      "step": 1138
    },
    {
      "epoch": 0.1414379734260524,
      "grad_norm": 0.22468189895153046,
      "learning_rate": 5e-05,
      "loss": 1.6522,
      "step": 1139
    },
    {
      "epoch": 0.14156215075127282,
      "grad_norm": 0.26619935035705566,
      "learning_rate": 5e-05,
      "loss": 2.0381,
      "step": 1140
    },
    {
      "epoch": 0.14168632807649323,
      "grad_norm": 0.24181407690048218,
      "learning_rate": 5e-05,
      "loss": 1.842,
      "step": 1141
    },
    {
      "epoch": 0.14181050540171364,
      "grad_norm": 0.28241896629333496,
      "learning_rate": 5e-05,
      "loss": 2.1041,
      "step": 1142
    },
    {
      "epoch": 0.14193468272693407,
      "grad_norm": 0.3849261999130249,
      "learning_rate": 5e-05,
      "loss": 2.6363,
      "step": 1143
    },
    {
      "epoch": 0.14205886005215448,
      "grad_norm": 0.2791067361831665,
      "learning_rate": 5e-05,
      "loss": 2.3319,
      "step": 1144
    },
    {
      "epoch": 0.1421830373773749,
      "grad_norm": 0.2378561645746231,
      "learning_rate": 5e-05,
      "loss": 1.808,
      "step": 1145
    },
    {
      "epoch": 0.1423072147025953,
      "grad_norm": 0.23445846140384674,
      "learning_rate": 5e-05,
      "loss": 1.73,
      "step": 1146
    },
    {
      "epoch": 0.1424313920278157,
      "grad_norm": 0.29622235894203186,
      "learning_rate": 5e-05,
      "loss": 2.3817,
      "step": 1147
    },
    {
      "epoch": 0.14255556935303615,
      "grad_norm": 0.2245474010705948,
      "learning_rate": 5e-05,
      "loss": 1.6031,
      "step": 1148
    },
    {
      "epoch": 0.14267974667825656,
      "grad_norm": 0.2519143521785736,
      "learning_rate": 5e-05,
      "loss": 1.929,
      "step": 1149
    },
    {
      "epoch": 0.14280392400347697,
      "grad_norm": 0.3421010971069336,
      "learning_rate": 5e-05,
      "loss": 1.8719,
      "step": 1150
    },
    {
      "epoch": 0.14292810132869738,
      "grad_norm": 0.2214202582836151,
      "learning_rate": 5e-05,
      "loss": 1.7547,
      "step": 1151
    },
    {
      "epoch": 0.14305227865391779,
      "grad_norm": 0.3228437900543213,
      "learning_rate": 5e-05,
      "loss": 2.1783,
      "step": 1152
    },
    {
      "epoch": 0.14317645597913822,
      "grad_norm": 0.24276112020015717,
      "learning_rate": 5e-05,
      "loss": 1.8954,
      "step": 1153
    },
    {
      "epoch": 0.14330063330435863,
      "grad_norm": 0.3633849024772644,
      "learning_rate": 5e-05,
      "loss": 2.4981,
      "step": 1154
    },
    {
      "epoch": 0.14342481062957904,
      "grad_norm": 0.2802623212337494,
      "learning_rate": 5e-05,
      "loss": 2.2688,
      "step": 1155
    },
    {
      "epoch": 0.14354898795479945,
      "grad_norm": 0.281960666179657,
      "learning_rate": 5e-05,
      "loss": 2.02,
      "step": 1156
    },
    {
      "epoch": 0.14367316528001986,
      "grad_norm": 0.3305203914642334,
      "learning_rate": 5e-05,
      "loss": 2.0643,
      "step": 1157
    },
    {
      "epoch": 0.1437973426052403,
      "grad_norm": 0.3385838568210602,
      "learning_rate": 5e-05,
      "loss": 2.2191,
      "step": 1158
    },
    {
      "epoch": 0.1439215199304607,
      "grad_norm": 0.29866835474967957,
      "learning_rate": 5e-05,
      "loss": 2.0052,
      "step": 1159
    },
    {
      "epoch": 0.14404569725568112,
      "grad_norm": 0.42141684889793396,
      "learning_rate": 5e-05,
      "loss": 2.4322,
      "step": 1160
    },
    {
      "epoch": 0.14416987458090152,
      "grad_norm": 0.30975401401519775,
      "learning_rate": 5e-05,
      "loss": 1.7659,
      "step": 1161
    },
    {
      "epoch": 0.14429405190612193,
      "grad_norm": 0.2526281774044037,
      "learning_rate": 5e-05,
      "loss": 1.964,
      "step": 1162
    },
    {
      "epoch": 0.14441822923134234,
      "grad_norm": 0.3553585410118103,
      "learning_rate": 5e-05,
      "loss": 2.407,
      "step": 1163
    },
    {
      "epoch": 0.14454240655656278,
      "grad_norm": 0.25870001316070557,
      "learning_rate": 5e-05,
      "loss": 2.1386,
      "step": 1164
    },
    {
      "epoch": 0.1446665838817832,
      "grad_norm": 0.3086514472961426,
      "learning_rate": 5e-05,
      "loss": 1.9795,
      "step": 1165
    },
    {
      "epoch": 0.1447907612070036,
      "grad_norm": 0.32468122243881226,
      "learning_rate": 5e-05,
      "loss": 2.0295,
      "step": 1166
    },
    {
      "epoch": 0.144914938532224,
      "grad_norm": 0.3432020843029022,
      "learning_rate": 5e-05,
      "loss": 2.2733,
      "step": 1167
    },
    {
      "epoch": 0.14503911585744442,
      "grad_norm": 0.4500787854194641,
      "learning_rate": 5e-05,
      "loss": 3.1246,
      "step": 1168
    },
    {
      "epoch": 0.14516329318266485,
      "grad_norm": 0.2316397726535797,
      "learning_rate": 5e-05,
      "loss": 1.8885,
      "step": 1169
    },
    {
      "epoch": 0.14528747050788526,
      "grad_norm": 0.2591933310031891,
      "learning_rate": 5e-05,
      "loss": 1.833,
      "step": 1170
    },
    {
      "epoch": 0.14541164783310567,
      "grad_norm": 0.2530015707015991,
      "learning_rate": 5e-05,
      "loss": 1.9319,
      "step": 1171
    },
    {
      "epoch": 0.14553582515832608,
      "grad_norm": 0.25178420543670654,
      "learning_rate": 5e-05,
      "loss": 1.9035,
      "step": 1172
    },
    {
      "epoch": 0.1456600024835465,
      "grad_norm": 0.38378190994262695,
      "learning_rate": 5e-05,
      "loss": 2.866,
      "step": 1173
    },
    {
      "epoch": 0.14578417980876693,
      "grad_norm": 0.24720364809036255,
      "learning_rate": 5e-05,
      "loss": 1.9238,
      "step": 1174
    },
    {
      "epoch": 0.14590835713398734,
      "grad_norm": 0.24143683910369873,
      "learning_rate": 5e-05,
      "loss": 1.9584,
      "step": 1175
    },
    {
      "epoch": 0.14603253445920775,
      "grad_norm": 0.2445477694272995,
      "learning_rate": 5e-05,
      "loss": 1.6613,
      "step": 1176
    },
    {
      "epoch": 0.14615671178442816,
      "grad_norm": 0.24600107967853546,
      "learning_rate": 5e-05,
      "loss": 1.9561,
      "step": 1177
    },
    {
      "epoch": 0.14628088910964857,
      "grad_norm": 0.2492237538099289,
      "learning_rate": 5e-05,
      "loss": 1.8048,
      "step": 1178
    },
    {
      "epoch": 0.146405066434869,
      "grad_norm": 0.516223132610321,
      "learning_rate": 5e-05,
      "loss": 2.6817,
      "step": 1179
    },
    {
      "epoch": 0.1465292437600894,
      "grad_norm": 0.2528268098831177,
      "learning_rate": 5e-05,
      "loss": 2.023,
      "step": 1180
    },
    {
      "epoch": 0.14665342108530982,
      "grad_norm": 0.2526163160800934,
      "learning_rate": 5e-05,
      "loss": 2.0564,
      "step": 1181
    },
    {
      "epoch": 0.14677759841053023,
      "grad_norm": 0.2417389154434204,
      "learning_rate": 5e-05,
      "loss": 1.9248,
      "step": 1182
    },
    {
      "epoch": 0.14690177573575064,
      "grad_norm": 0.47474679350852966,
      "learning_rate": 5e-05,
      "loss": 2.5207,
      "step": 1183
    },
    {
      "epoch": 0.14702595306097108,
      "grad_norm": 0.24570490419864655,
      "learning_rate": 5e-05,
      "loss": 1.9672,
      "step": 1184
    },
    {
      "epoch": 0.14715013038619149,
      "grad_norm": 0.27930474281311035,
      "learning_rate": 5e-05,
      "loss": 2.1775,
      "step": 1185
    },
    {
      "epoch": 0.1472743077114119,
      "grad_norm": 0.23085196316242218,
      "learning_rate": 5e-05,
      "loss": 1.7616,
      "step": 1186
    },
    {
      "epoch": 0.1473984850366323,
      "grad_norm": 0.3221113979816437,
      "learning_rate": 5e-05,
      "loss": 2.2469,
      "step": 1187
    },
    {
      "epoch": 0.1475226623618527,
      "grad_norm": 0.25005877017974854,
      "learning_rate": 5e-05,
      "loss": 1.86,
      "step": 1188
    },
    {
      "epoch": 0.14764683968707315,
      "grad_norm": 0.24570053815841675,
      "learning_rate": 5e-05,
      "loss": 2.119,
      "step": 1189
    },
    {
      "epoch": 0.14777101701229356,
      "grad_norm": 0.2593410909175873,
      "learning_rate": 5e-05,
      "loss": 2.0018,
      "step": 1190
    },
    {
      "epoch": 0.14789519433751397,
      "grad_norm": 0.48453813791275024,
      "learning_rate": 5e-05,
      "loss": 2.6275,
      "step": 1191
    },
    {
      "epoch": 0.14801937166273438,
      "grad_norm": 0.3979604244232178,
      "learning_rate": 5e-05,
      "loss": 2.5155,
      "step": 1192
    },
    {
      "epoch": 0.1481435489879548,
      "grad_norm": 0.3578927516937256,
      "learning_rate": 5e-05,
      "loss": 2.4039,
      "step": 1193
    },
    {
      "epoch": 0.14826772631317522,
      "grad_norm": 0.3434313237667084,
      "learning_rate": 5e-05,
      "loss": 2.6433,
      "step": 1194
    },
    {
      "epoch": 0.14839190363839563,
      "grad_norm": 0.2263568788766861,
      "learning_rate": 5e-05,
      "loss": 1.6669,
      "step": 1195
    },
    {
      "epoch": 0.14851608096361604,
      "grad_norm": 0.3011169135570526,
      "learning_rate": 5e-05,
      "loss": 2.0213,
      "step": 1196
    },
    {
      "epoch": 0.14864025828883645,
      "grad_norm": 0.255597859621048,
      "learning_rate": 5e-05,
      "loss": 1.8261,
      "step": 1197
    },
    {
      "epoch": 0.14876443561405686,
      "grad_norm": 0.3074510991573334,
      "learning_rate": 5e-05,
      "loss": 2.3057,
      "step": 1198
    },
    {
      "epoch": 0.1488886129392773,
      "grad_norm": 0.305249959230423,
      "learning_rate": 5e-05,
      "loss": 1.8926,
      "step": 1199
    },
    {
      "epoch": 0.1490127902644977,
      "grad_norm": 0.3319258689880371,
      "learning_rate": 5e-05,
      "loss": 2.2618,
      "step": 1200
    },
    {
      "epoch": 0.14913696758971812,
      "grad_norm": 0.2887781262397766,
      "learning_rate": 5e-05,
      "loss": 2.1429,
      "step": 1201
    },
    {
      "epoch": 0.14926114491493853,
      "grad_norm": 0.23523738980293274,
      "learning_rate": 5e-05,
      "loss": 1.8104,
      "step": 1202
    },
    {
      "epoch": 0.14938532224015894,
      "grad_norm": 0.3615783154964447,
      "learning_rate": 5e-05,
      "loss": 2.0174,
      "step": 1203
    },
    {
      "epoch": 0.14950949956537937,
      "grad_norm": 0.20284977555274963,
      "learning_rate": 5e-05,
      "loss": 1.542,
      "step": 1204
    },
    {
      "epoch": 0.14963367689059978,
      "grad_norm": 0.23691438138484955,
      "learning_rate": 5e-05,
      "loss": 1.7979,
      "step": 1205
    },
    {
      "epoch": 0.1497578542158202,
      "grad_norm": 0.26956695318222046,
      "learning_rate": 5e-05,
      "loss": 2.0376,
      "step": 1206
    },
    {
      "epoch": 0.1498820315410406,
      "grad_norm": 0.5684540867805481,
      "learning_rate": 5e-05,
      "loss": 2.6706,
      "step": 1207
    },
    {
      "epoch": 0.150006208866261,
      "grad_norm": 0.22813959419727325,
      "learning_rate": 5e-05,
      "loss": 1.8555,
      "step": 1208
    },
    {
      "epoch": 0.15013038619148145,
      "grad_norm": 0.2528534531593323,
      "learning_rate": 5e-05,
      "loss": 1.9938,
      "step": 1209
    },
    {
      "epoch": 0.15025456351670186,
      "grad_norm": 0.2532576024532318,
      "learning_rate": 5e-05,
      "loss": 1.8197,
      "step": 1210
    },
    {
      "epoch": 0.15037874084192226,
      "grad_norm": 0.43566054105758667,
      "learning_rate": 5e-05,
      "loss": 3.0556,
      "step": 1211
    },
    {
      "epoch": 0.15050291816714267,
      "grad_norm": 0.29913580417633057,
      "learning_rate": 5e-05,
      "loss": 2.3617,
      "step": 1212
    },
    {
      "epoch": 0.15062709549236308,
      "grad_norm": 0.30753758549690247,
      "learning_rate": 5e-05,
      "loss": 2.2932,
      "step": 1213
    },
    {
      "epoch": 0.15075127281758352,
      "grad_norm": 0.2163032442331314,
      "learning_rate": 5e-05,
      "loss": 1.6103,
      "step": 1214
    },
    {
      "epoch": 0.15087545014280393,
      "grad_norm": 0.2995399534702301,
      "learning_rate": 5e-05,
      "loss": 2.4001,
      "step": 1215
    },
    {
      "epoch": 0.15099962746802434,
      "grad_norm": 0.2516692578792572,
      "learning_rate": 5e-05,
      "loss": 1.9123,
      "step": 1216
    },
    {
      "epoch": 0.15112380479324475,
      "grad_norm": 0.29868268966674805,
      "learning_rate": 5e-05,
      "loss": 1.8208,
      "step": 1217
    },
    {
      "epoch": 0.15124798211846516,
      "grad_norm": 0.31595051288604736,
      "learning_rate": 5e-05,
      "loss": 2.0664,
      "step": 1218
    },
    {
      "epoch": 0.1513721594436856,
      "grad_norm": 0.2653745412826538,
      "learning_rate": 5e-05,
      "loss": 1.7214,
      "step": 1219
    },
    {
      "epoch": 0.151496336768906,
      "grad_norm": 0.2843726873397827,
      "learning_rate": 5e-05,
      "loss": 1.8578,
      "step": 1220
    },
    {
      "epoch": 0.1516205140941264,
      "grad_norm": 0.3057863712310791,
      "learning_rate": 5e-05,
      "loss": 2.5803,
      "step": 1221
    },
    {
      "epoch": 0.15174469141934682,
      "grad_norm": 0.41839346289634705,
      "learning_rate": 5e-05,
      "loss": 2.6349,
      "step": 1222
    },
    {
      "epoch": 0.15186886874456723,
      "grad_norm": 0.27506548166275024,
      "learning_rate": 5e-05,
      "loss": 1.9141,
      "step": 1223
    },
    {
      "epoch": 0.15199304606978767,
      "grad_norm": 0.30796173214912415,
      "learning_rate": 5e-05,
      "loss": 2.0619,
      "step": 1224
    },
    {
      "epoch": 0.15211722339500808,
      "grad_norm": 0.2962079346179962,
      "learning_rate": 5e-05,
      "loss": 1.6308,
      "step": 1225
    },
    {
      "epoch": 0.1522414007202285,
      "grad_norm": 0.29694291949272156,
      "learning_rate": 5e-05,
      "loss": 2.1664,
      "step": 1226
    },
    {
      "epoch": 0.1523655780454489,
      "grad_norm": 0.26229187846183777,
      "learning_rate": 5e-05,
      "loss": 1.9155,
      "step": 1227
    },
    {
      "epoch": 0.1524897553706693,
      "grad_norm": 0.4687798321247101,
      "learning_rate": 5e-05,
      "loss": 2.2301,
      "step": 1228
    },
    {
      "epoch": 0.15261393269588974,
      "grad_norm": 0.26803359389305115,
      "learning_rate": 5e-05,
      "loss": 1.7888,
      "step": 1229
    },
    {
      "epoch": 0.15273811002111015,
      "grad_norm": 0.39951369166374207,
      "learning_rate": 5e-05,
      "loss": 2.5015,
      "step": 1230
    },
    {
      "epoch": 0.15286228734633056,
      "grad_norm": 0.47469648718833923,
      "learning_rate": 5e-05,
      "loss": 2.8467,
      "step": 1231
    },
    {
      "epoch": 0.15298646467155097,
      "grad_norm": 0.4635626971721649,
      "learning_rate": 5e-05,
      "loss": 2.3634,
      "step": 1232
    },
    {
      "epoch": 0.15311064199677138,
      "grad_norm": 0.37162482738494873,
      "learning_rate": 5e-05,
      "loss": 2.5226,
      "step": 1233
    },
    {
      "epoch": 0.15323481932199182,
      "grad_norm": 0.4097093939781189,
      "learning_rate": 5e-05,
      "loss": 2.5152,
      "step": 1234
    },
    {
      "epoch": 0.15335899664721223,
      "grad_norm": 0.24587558209896088,
      "learning_rate": 5e-05,
      "loss": 1.9299,
      "step": 1235
    },
    {
      "epoch": 0.15348317397243263,
      "grad_norm": 0.4131929874420166,
      "learning_rate": 5e-05,
      "loss": 2.7207,
      "step": 1236
    },
    {
      "epoch": 0.15360735129765304,
      "grad_norm": 0.29544156789779663,
      "learning_rate": 5e-05,
      "loss": 2.0303,
      "step": 1237
    },
    {
      "epoch": 0.15373152862287345,
      "grad_norm": 0.25577372312545776,
      "learning_rate": 5e-05,
      "loss": 1.7898,
      "step": 1238
    },
    {
      "epoch": 0.1538557059480939,
      "grad_norm": 0.271610826253891,
      "learning_rate": 5e-05,
      "loss": 2.0402,
      "step": 1239
    },
    {
      "epoch": 0.1539798832733143,
      "grad_norm": 0.24255508184432983,
      "learning_rate": 5e-05,
      "loss": 1.9027,
      "step": 1240
    },
    {
      "epoch": 0.1541040605985347,
      "grad_norm": 0.25839805603027344,
      "learning_rate": 5e-05,
      "loss": 1.7868,
      "step": 1241
    },
    {
      "epoch": 0.15422823792375512,
      "grad_norm": 0.2666448950767517,
      "learning_rate": 5e-05,
      "loss": 1.8418,
      "step": 1242
    },
    {
      "epoch": 0.15435241524897553,
      "grad_norm": 0.7195788025856018,
      "learning_rate": 5e-05,
      "loss": 2.9927,
      "step": 1243
    },
    {
      "epoch": 0.15447659257419596,
      "grad_norm": 0.6202380061149597,
      "learning_rate": 5e-05,
      "loss": 2.7148,
      "step": 1244
    },
    {
      "epoch": 0.15460076989941637,
      "grad_norm": 0.47668972611427307,
      "learning_rate": 5e-05,
      "loss": 2.9792,
      "step": 1245
    },
    {
      "epoch": 0.15472494722463678,
      "grad_norm": 0.28007158637046814,
      "learning_rate": 5e-05,
      "loss": 2.2218,
      "step": 1246
    },
    {
      "epoch": 0.1548491245498572,
      "grad_norm": 0.4167512357234955,
      "learning_rate": 5e-05,
      "loss": 2.485,
      "step": 1247
    },
    {
      "epoch": 0.1549733018750776,
      "grad_norm": 0.24505804479122162,
      "learning_rate": 5e-05,
      "loss": 1.7562,
      "step": 1248
    },
    {
      "epoch": 0.15509747920029804,
      "grad_norm": 0.24643422663211823,
      "learning_rate": 5e-05,
      "loss": 1.8853,
      "step": 1249
    },
    {
      "epoch": 0.15522165652551845,
      "grad_norm": 0.2433510273694992,
      "learning_rate": 5e-05,
      "loss": 1.8705,
      "step": 1250
    },
    {
      "epoch": 0.15534583385073886,
      "grad_norm": 0.3541926443576813,
      "learning_rate": 5e-05,
      "loss": 2.2321,
      "step": 1251
    },
    {
      "epoch": 0.15547001117595927,
      "grad_norm": 0.35379981994628906,
      "learning_rate": 5e-05,
      "loss": 2.8314,
      "step": 1252
    },
    {
      "epoch": 0.15559418850117968,
      "grad_norm": 0.2638271749019623,
      "learning_rate": 5e-05,
      "loss": 1.7285,
      "step": 1253
    },
    {
      "epoch": 0.1557183658264001,
      "grad_norm": 0.2888670265674591,
      "learning_rate": 5e-05,
      "loss": 2.1675,
      "step": 1254
    },
    {
      "epoch": 0.15584254315162052,
      "grad_norm": 0.2516119182109833,
      "learning_rate": 5e-05,
      "loss": 1.8925,
      "step": 1255
    },
    {
      "epoch": 0.15596672047684093,
      "grad_norm": 0.22935748100280762,
      "learning_rate": 5e-05,
      "loss": 1.656,
      "step": 1256
    },
    {
      "epoch": 0.15609089780206134,
      "grad_norm": 0.27387183904647827,
      "learning_rate": 5e-05,
      "loss": 2.2068,
      "step": 1257
    },
    {
      "epoch": 0.15621507512728175,
      "grad_norm": 0.2415919452905655,
      "learning_rate": 5e-05,
      "loss": 1.7069,
      "step": 1258
    },
    {
      "epoch": 0.1563392524525022,
      "grad_norm": 0.24453413486480713,
      "learning_rate": 5e-05,
      "loss": 1.8001,
      "step": 1259
    },
    {
      "epoch": 0.1564634297777226,
      "grad_norm": 0.24439413845539093,
      "learning_rate": 5e-05,
      "loss": 1.7806,
      "step": 1260
    },
    {
      "epoch": 0.156587607102943,
      "grad_norm": 0.23395656049251556,
      "learning_rate": 5e-05,
      "loss": 1.7242,
      "step": 1261
    },
    {
      "epoch": 0.15671178442816341,
      "grad_norm": 0.28672462701797485,
      "learning_rate": 5e-05,
      "loss": 2.5583,
      "step": 1262
    },
    {
      "epoch": 0.15683596175338382,
      "grad_norm": 0.27625617384910583,
      "learning_rate": 5e-05,
      "loss": 1.9203,
      "step": 1263
    },
    {
      "epoch": 0.15696013907860426,
      "grad_norm": 0.3245868384838104,
      "learning_rate": 5e-05,
      "loss": 2.9431,
      "step": 1264
    },
    {
      "epoch": 0.15708431640382467,
      "grad_norm": 0.2666500210762024,
      "learning_rate": 5e-05,
      "loss": 2.1769,
      "step": 1265
    },
    {
      "epoch": 0.15720849372904508,
      "grad_norm": 0.31889089941978455,
      "learning_rate": 5e-05,
      "loss": 2.7167,
      "step": 1266
    },
    {
      "epoch": 0.1573326710542655,
      "grad_norm": 0.3483503758907318,
      "learning_rate": 5e-05,
      "loss": 2.2731,
      "step": 1267
    },
    {
      "epoch": 0.1574568483794859,
      "grad_norm": 0.23736940324306488,
      "learning_rate": 5e-05,
      "loss": 1.727,
      "step": 1268
    },
    {
      "epoch": 0.1575810257047063,
      "grad_norm": 0.2436118721961975,
      "learning_rate": 5e-05,
      "loss": 1.9461,
      "step": 1269
    },
    {
      "epoch": 0.15770520302992674,
      "grad_norm": 0.33697667717933655,
      "learning_rate": 5e-05,
      "loss": 2.1842,
      "step": 1270
    },
    {
      "epoch": 0.15782938035514715,
      "grad_norm": 0.3701704144477844,
      "learning_rate": 5e-05,
      "loss": 2.4626,
      "step": 1271
    },
    {
      "epoch": 0.15795355768036756,
      "grad_norm": 0.24360108375549316,
      "learning_rate": 5e-05,
      "loss": 1.887,
      "step": 1272
    },
    {
      "epoch": 0.15807773500558797,
      "grad_norm": 0.2931790351867676,
      "learning_rate": 5e-05,
      "loss": 2.1977,
      "step": 1273
    },
    {
      "epoch": 0.15820191233080838,
      "grad_norm": 0.2223939448595047,
      "learning_rate": 5e-05,
      "loss": 1.7017,
      "step": 1274
    },
    {
      "epoch": 0.15832608965602882,
      "grad_norm": 0.4535906910896301,
      "learning_rate": 5e-05,
      "loss": 3.0571,
      "step": 1275
    },
    {
      "epoch": 0.15845026698124923,
      "grad_norm": 0.3376586437225342,
      "learning_rate": 5e-05,
      "loss": 2.5278,
      "step": 1276
    },
    {
      "epoch": 0.15857444430646964,
      "grad_norm": 0.379981130361557,
      "learning_rate": 5e-05,
      "loss": 2.3979,
      "step": 1277
    },
    {
      "epoch": 0.15869862163169005,
      "grad_norm": 0.28272438049316406,
      "learning_rate": 5e-05,
      "loss": 1.9535,
      "step": 1278
    },
    {
      "epoch": 0.15882279895691045,
      "grad_norm": 0.24832209944725037,
      "learning_rate": 5e-05,
      "loss": 1.7181,
      "step": 1279
    },
    {
      "epoch": 0.1589469762821309,
      "grad_norm": 0.2532510459423065,
      "learning_rate": 5e-05,
      "loss": 1.6482,
      "step": 1280
    },
    {
      "epoch": 0.1590711536073513,
      "grad_norm": 0.24660013616085052,
      "learning_rate": 5e-05,
      "loss": 1.7507,
      "step": 1281
    },
    {
      "epoch": 0.1591953309325717,
      "grad_norm": 0.2602323591709137,
      "learning_rate": 5e-05,
      "loss": 2.1038,
      "step": 1282
    },
    {
      "epoch": 0.15931950825779212,
      "grad_norm": 0.30742180347442627,
      "learning_rate": 5e-05,
      "loss": 2.2179,
      "step": 1283
    },
    {
      "epoch": 0.15944368558301253,
      "grad_norm": 0.26936063170433044,
      "learning_rate": 5e-05,
      "loss": 2.0372,
      "step": 1284
    },
    {
      "epoch": 0.15956786290823297,
      "grad_norm": 0.2616680860519409,
      "learning_rate": 5e-05,
      "loss": 2.1247,
      "step": 1285
    },
    {
      "epoch": 0.15969204023345338,
      "grad_norm": 0.42486435174942017,
      "learning_rate": 5e-05,
      "loss": 2.4125,
      "step": 1286
    },
    {
      "epoch": 0.15981621755867378,
      "grad_norm": 0.26610830426216125,
      "learning_rate": 5e-05,
      "loss": 1.8577,
      "step": 1287
    },
    {
      "epoch": 0.1599403948838942,
      "grad_norm": 0.27697575092315674,
      "learning_rate": 5e-05,
      "loss": 2.3448,
      "step": 1288
    },
    {
      "epoch": 0.1600645722091146,
      "grad_norm": 0.25561267137527466,
      "learning_rate": 5e-05,
      "loss": 2.0115,
      "step": 1289
    },
    {
      "epoch": 0.16018874953433504,
      "grad_norm": 0.28269773721694946,
      "learning_rate": 5e-05,
      "loss": 2.1156,
      "step": 1290
    },
    {
      "epoch": 0.16031292685955545,
      "grad_norm": 0.2693529725074768,
      "learning_rate": 5e-05,
      "loss": 2.0133,
      "step": 1291
    },
    {
      "epoch": 0.16043710418477586,
      "grad_norm": 0.30885741114616394,
      "learning_rate": 5e-05,
      "loss": 2.3881,
      "step": 1292
    },
    {
      "epoch": 0.16056128150999627,
      "grad_norm": 0.24259135127067566,
      "learning_rate": 5e-05,
      "loss": 2.125,
      "step": 1293
    },
    {
      "epoch": 0.16068545883521668,
      "grad_norm": 0.3845694661140442,
      "learning_rate": 5e-05,
      "loss": 2.4752,
      "step": 1294
    },
    {
      "epoch": 0.1608096361604371,
      "grad_norm": 0.44367334246635437,
      "learning_rate": 5e-05,
      "loss": 2.4092,
      "step": 1295
    },
    {
      "epoch": 0.16093381348565752,
      "grad_norm": 0.2634572982788086,
      "learning_rate": 5e-05,
      "loss": 1.752,
      "step": 1296
    },
    {
      "epoch": 0.16105799081087793,
      "grad_norm": 0.29496175050735474,
      "learning_rate": 5e-05,
      "loss": 2.1139,
      "step": 1297
    },
    {
      "epoch": 0.16118216813609834,
      "grad_norm": 0.23719622194766998,
      "learning_rate": 5e-05,
      "loss": 1.8492,
      "step": 1298
    },
    {
      "epoch": 0.16130634546131875,
      "grad_norm": 0.2589401602745056,
      "learning_rate": 5e-05,
      "loss": 2.0617,
      "step": 1299
    },
    {
      "epoch": 0.1614305227865392,
      "grad_norm": 0.22831667959690094,
      "learning_rate": 5e-05,
      "loss": 1.8122,
      "step": 1300
    },
    {
      "epoch": 0.1615547001117596,
      "grad_norm": 0.3076975345611572,
      "learning_rate": 5e-05,
      "loss": 2.1634,
      "step": 1301
    },
    {
      "epoch": 0.16167887743698,
      "grad_norm": 0.23006132245063782,
      "learning_rate": 5e-05,
      "loss": 1.914,
      "step": 1302
    },
    {
      "epoch": 0.16180305476220042,
      "grad_norm": 0.2639243006706238,
      "learning_rate": 5e-05,
      "loss": 2.0658,
      "step": 1303
    },
    {
      "epoch": 0.16192723208742082,
      "grad_norm": 0.30185243487358093,
      "learning_rate": 5e-05,
      "loss": 2.2321,
      "step": 1304
    },
    {
      "epoch": 0.16205140941264126,
      "grad_norm": 0.24596966803073883,
      "learning_rate": 5e-05,
      "loss": 1.9653,
      "step": 1305
    },
    {
      "epoch": 0.16217558673786167,
      "grad_norm": 0.23422880470752716,
      "learning_rate": 5e-05,
      "loss": 1.7255,
      "step": 1306
    },
    {
      "epoch": 0.16229976406308208,
      "grad_norm": 0.22731982171535492,
      "learning_rate": 5e-05,
      "loss": 1.7056,
      "step": 1307
    },
    {
      "epoch": 0.1624239413883025,
      "grad_norm": 0.23401689529418945,
      "learning_rate": 5e-05,
      "loss": 1.7543,
      "step": 1308
    },
    {
      "epoch": 0.1625481187135229,
      "grad_norm": 0.2320878505706787,
      "learning_rate": 5e-05,
      "loss": 1.851,
      "step": 1309
    },
    {
      "epoch": 0.16267229603874334,
      "grad_norm": 0.22573159635066986,
      "learning_rate": 5e-05,
      "loss": 1.6737,
      "step": 1310
    },
    {
      "epoch": 0.16279647336396375,
      "grad_norm": 0.22687570750713348,
      "learning_rate": 5e-05,
      "loss": 1.6772,
      "step": 1311
    },
    {
      "epoch": 0.16292065068918415,
      "grad_norm": 0.21604809165000916,
      "learning_rate": 5e-05,
      "loss": 1.7014,
      "step": 1312
    },
    {
      "epoch": 0.16304482801440456,
      "grad_norm": 0.33596667647361755,
      "learning_rate": 5e-05,
      "loss": 2.554,
      "step": 1313
    },
    {
      "epoch": 0.16316900533962497,
      "grad_norm": 0.21518127620220184,
      "learning_rate": 5e-05,
      "loss": 1.6064,
      "step": 1314
    },
    {
      "epoch": 0.1632931826648454,
      "grad_norm": 0.2203385829925537,
      "learning_rate": 5e-05,
      "loss": 1.558,
      "step": 1315
    },
    {
      "epoch": 0.16341735999006582,
      "grad_norm": 0.38375264406204224,
      "learning_rate": 5e-05,
      "loss": 2.3561,
      "step": 1316
    },
    {
      "epoch": 0.16354153731528623,
      "grad_norm": 0.2642592489719391,
      "learning_rate": 5e-05,
      "loss": 2.0025,
      "step": 1317
    },
    {
      "epoch": 0.16366571464050664,
      "grad_norm": 0.25367793440818787,
      "learning_rate": 5e-05,
      "loss": 1.8964,
      "step": 1318
    },
    {
      "epoch": 0.16378989196572705,
      "grad_norm": 0.2757321000099182,
      "learning_rate": 5e-05,
      "loss": 2.2166,
      "step": 1319
    },
    {
      "epoch": 0.16391406929094748,
      "grad_norm": 0.36721518635749817,
      "learning_rate": 5e-05,
      "loss": 1.6403,
      "step": 1320
    },
    {
      "epoch": 0.1640382466161679,
      "grad_norm": 0.2706136405467987,
      "learning_rate": 5e-05,
      "loss": 2.04,
      "step": 1321
    },
    {
      "epoch": 0.1641624239413883,
      "grad_norm": 0.239241361618042,
      "learning_rate": 5e-05,
      "loss": 2.0376,
      "step": 1322
    },
    {
      "epoch": 0.1642866012666087,
      "grad_norm": 0.26604607701301575,
      "learning_rate": 5e-05,
      "loss": 1.9828,
      "step": 1323
    },
    {
      "epoch": 0.16441077859182912,
      "grad_norm": 0.2374410778284073,
      "learning_rate": 5e-05,
      "loss": 1.7973,
      "step": 1324
    },
    {
      "epoch": 0.16453495591704956,
      "grad_norm": 0.24728651344776154,
      "learning_rate": 5e-05,
      "loss": 1.7262,
      "step": 1325
    },
    {
      "epoch": 0.16465913324226997,
      "grad_norm": 0.2484746128320694,
      "learning_rate": 5e-05,
      "loss": 1.7974,
      "step": 1326
    },
    {
      "epoch": 0.16478331056749038,
      "grad_norm": 0.23304536938667297,
      "learning_rate": 5e-05,
      "loss": 1.6588,
      "step": 1327
    },
    {
      "epoch": 0.16490748789271079,
      "grad_norm": 0.2906743586063385,
      "learning_rate": 5e-05,
      "loss": 2.2776,
      "step": 1328
    },
    {
      "epoch": 0.1650316652179312,
      "grad_norm": 0.3603396415710449,
      "learning_rate": 5e-05,
      "loss": 2.0138,
      "step": 1329
    },
    {
      "epoch": 0.16515584254315163,
      "grad_norm": 0.24917276203632355,
      "learning_rate": 5e-05,
      "loss": 1.923,
      "step": 1330
    },
    {
      "epoch": 0.16528001986837204,
      "grad_norm": 0.20571613311767578,
      "learning_rate": 5e-05,
      "loss": 1.596,
      "step": 1331
    },
    {
      "epoch": 0.16540419719359245,
      "grad_norm": 0.21570037305355072,
      "learning_rate": 5e-05,
      "loss": 1.8356,
      "step": 1332
    },
    {
      "epoch": 0.16552837451881286,
      "grad_norm": 0.2692769467830658,
      "learning_rate": 5e-05,
      "loss": 2.3511,
      "step": 1333
    },
    {
      "epoch": 0.16565255184403327,
      "grad_norm": 0.6433316469192505,
      "learning_rate": 5e-05,
      "loss": 3.1341,
      "step": 1334
    },
    {
      "epoch": 0.1657767291692537,
      "grad_norm": 0.29831385612487793,
      "learning_rate": 5e-05,
      "loss": 2.1875,
      "step": 1335
    },
    {
      "epoch": 0.16590090649447412,
      "grad_norm": 0.3096681535243988,
      "learning_rate": 5e-05,
      "loss": 2.0789,
      "step": 1336
    },
    {
      "epoch": 0.16602508381969452,
      "grad_norm": 0.393687903881073,
      "learning_rate": 5e-05,
      "loss": 2.0953,
      "step": 1337
    },
    {
      "epoch": 0.16614926114491493,
      "grad_norm": 0.2538616359233856,
      "learning_rate": 5e-05,
      "loss": 1.84,
      "step": 1338
    },
    {
      "epoch": 0.16627343847013534,
      "grad_norm": 0.24923135340213776,
      "learning_rate": 5e-05,
      "loss": 2.1599,
      "step": 1339
    },
    {
      "epoch": 0.16639761579535578,
      "grad_norm": 0.2715846002101898,
      "learning_rate": 5e-05,
      "loss": 1.9949,
      "step": 1340
    },
    {
      "epoch": 0.1665217931205762,
      "grad_norm": 0.2750992774963379,
      "learning_rate": 5e-05,
      "loss": 1.7898,
      "step": 1341
    },
    {
      "epoch": 0.1666459704457966,
      "grad_norm": 0.3703128397464752,
      "learning_rate": 5e-05,
      "loss": 2.143,
      "step": 1342
    },
    {
      "epoch": 0.166770147771017,
      "grad_norm": 0.24690303206443787,
      "learning_rate": 5e-05,
      "loss": 1.6829,
      "step": 1343
    },
    {
      "epoch": 0.16689432509623742,
      "grad_norm": 0.23967143893241882,
      "learning_rate": 5e-05,
      "loss": 1.7114,
      "step": 1344
    },
    {
      "epoch": 0.16701850242145785,
      "grad_norm": 0.23750554025173187,
      "learning_rate": 5e-05,
      "loss": 1.8553,
      "step": 1345
    },
    {
      "epoch": 0.16714267974667826,
      "grad_norm": 0.29518237709999084,
      "learning_rate": 5e-05,
      "loss": 2.1972,
      "step": 1346
    },
    {
      "epoch": 0.16726685707189867,
      "grad_norm": 0.3136303126811981,
      "learning_rate": 5e-05,
      "loss": 2.5917,
      "step": 1347
    },
    {
      "epoch": 0.16739103439711908,
      "grad_norm": 0.2705548405647278,
      "learning_rate": 5e-05,
      "loss": 1.6883,
      "step": 1348
    },
    {
      "epoch": 0.1675152117223395,
      "grad_norm": 0.2752920985221863,
      "learning_rate": 5e-05,
      "loss": 2.0115,
      "step": 1349
    },
    {
      "epoch": 0.16763938904755993,
      "grad_norm": 0.3215140700340271,
      "learning_rate": 5e-05,
      "loss": 2.3198,
      "step": 1350
    },
    {
      "epoch": 0.16776356637278034,
      "grad_norm": 0.26572516560554504,
      "learning_rate": 5e-05,
      "loss": 2.0305,
      "step": 1351
    },
    {
      "epoch": 0.16788774369800075,
      "grad_norm": 0.2589241862297058,
      "learning_rate": 5e-05,
      "loss": 1.9757,
      "step": 1352
    },
    {
      "epoch": 0.16801192102322116,
      "grad_norm": 0.25737783312797546,
      "learning_rate": 5e-05,
      "loss": 1.9797,
      "step": 1353
    },
    {
      "epoch": 0.16813609834844156,
      "grad_norm": 0.29077279567718506,
      "learning_rate": 5e-05,
      "loss": 2.1914,
      "step": 1354
    },
    {
      "epoch": 0.168260275673662,
      "grad_norm": 0.30198049545288086,
      "learning_rate": 5e-05,
      "loss": 2.0131,
      "step": 1355
    },
    {
      "epoch": 0.1683844529988824,
      "grad_norm": 0.261377215385437,
      "learning_rate": 5e-05,
      "loss": 1.9785,
      "step": 1356
    },
    {
      "epoch": 0.16850863032410282,
      "grad_norm": 0.23400487005710602,
      "learning_rate": 5e-05,
      "loss": 1.7566,
      "step": 1357
    },
    {
      "epoch": 0.16863280764932323,
      "grad_norm": 0.24732302129268646,
      "learning_rate": 5e-05,
      "loss": 2.0366,
      "step": 1358
    },
    {
      "epoch": 0.16875698497454364,
      "grad_norm": 0.26338592171669006,
      "learning_rate": 5e-05,
      "loss": 1.9771,
      "step": 1359
    },
    {
      "epoch": 0.16888116229976408,
      "grad_norm": 0.263784259557724,
      "learning_rate": 5e-05,
      "loss": 1.9624,
      "step": 1360
    },
    {
      "epoch": 0.16900533962498449,
      "grad_norm": 0.2597507834434509,
      "learning_rate": 5e-05,
      "loss": 1.7799,
      "step": 1361
    },
    {
      "epoch": 0.1691295169502049,
      "grad_norm": 0.34933894872665405,
      "learning_rate": 5e-05,
      "loss": 2.3649,
      "step": 1362
    },
    {
      "epoch": 0.1692536942754253,
      "grad_norm": 0.3756512999534607,
      "learning_rate": 5e-05,
      "loss": 2.7594,
      "step": 1363
    },
    {
      "epoch": 0.1693778716006457,
      "grad_norm": 0.2576308250427246,
      "learning_rate": 5e-05,
      "loss": 2.0799,
      "step": 1364
    },
    {
      "epoch": 0.16950204892586615,
      "grad_norm": 0.2317439317703247,
      "learning_rate": 5e-05,
      "loss": 1.7362,
      "step": 1365
    },
    {
      "epoch": 0.16962622625108656,
      "grad_norm": 0.2574308514595032,
      "learning_rate": 5e-05,
      "loss": 2.2173,
      "step": 1366
    },
    {
      "epoch": 0.16975040357630697,
      "grad_norm": 0.2534666657447815,
      "learning_rate": 5e-05,
      "loss": 1.9303,
      "step": 1367
    },
    {
      "epoch": 0.16987458090152738,
      "grad_norm": 0.26502034068107605,
      "learning_rate": 5e-05,
      "loss": 1.9592,
      "step": 1368
    },
    {
      "epoch": 0.1699987582267478,
      "grad_norm": 0.3469485938549042,
      "learning_rate": 5e-05,
      "loss": 2.3586,
      "step": 1369
    },
    {
      "epoch": 0.17012293555196822,
      "grad_norm": 0.34820976853370667,
      "learning_rate": 5e-05,
      "loss": 2.7691,
      "step": 1370
    },
    {
      "epoch": 0.17024711287718863,
      "grad_norm": 0.2686615586280823,
      "learning_rate": 5e-05,
      "loss": 2.3223,
      "step": 1371
    },
    {
      "epoch": 0.17037129020240904,
      "grad_norm": 0.3581946790218353,
      "learning_rate": 5e-05,
      "loss": 2.6801,
      "step": 1372
    },
    {
      "epoch": 0.17049546752762945,
      "grad_norm": 0.29164987802505493,
      "learning_rate": 5e-05,
      "loss": 1.9593,
      "step": 1373
    },
    {
      "epoch": 0.17061964485284986,
      "grad_norm": 0.32622209191322327,
      "learning_rate": 5e-05,
      "loss": 2.2314,
      "step": 1374
    },
    {
      "epoch": 0.1707438221780703,
      "grad_norm": 0.2485162615776062,
      "learning_rate": 5e-05,
      "loss": 1.9148,
      "step": 1375
    },
    {
      "epoch": 0.1708679995032907,
      "grad_norm": 0.25347989797592163,
      "learning_rate": 5e-05,
      "loss": 2.2589,
      "step": 1376
    },
    {
      "epoch": 0.17099217682851112,
      "grad_norm": 0.26037269830703735,
      "learning_rate": 5e-05,
      "loss": 1.7405,
      "step": 1377
    },
    {
      "epoch": 0.17111635415373153,
      "grad_norm": 0.24087978899478912,
      "learning_rate": 5e-05,
      "loss": 1.5645,
      "step": 1378
    },
    {
      "epoch": 0.17124053147895194,
      "grad_norm": 0.3239763677120209,
      "learning_rate": 5e-05,
      "loss": 2.1053,
      "step": 1379
    },
    {
      "epoch": 0.17136470880417234,
      "grad_norm": 0.3365716338157654,
      "learning_rate": 5e-05,
      "loss": 2.9064,
      "step": 1380
    },
    {
      "epoch": 0.17148888612939278,
      "grad_norm": 0.24474604427814484,
      "learning_rate": 5e-05,
      "loss": 1.858,
      "step": 1381
    },
    {
      "epoch": 0.1716130634546132,
      "grad_norm": 0.2951070964336395,
      "learning_rate": 5e-05,
      "loss": 2.6255,
      "step": 1382
    },
    {
      "epoch": 0.1717372407798336,
      "grad_norm": 0.27612584829330444,
      "learning_rate": 5e-05,
      "loss": 2.1143,
      "step": 1383
    },
    {
      "epoch": 0.171861418105054,
      "grad_norm": 0.32302820682525635,
      "learning_rate": 5e-05,
      "loss": 2.2926,
      "step": 1384
    },
    {
      "epoch": 0.17198559543027442,
      "grad_norm": 0.34798377752304077,
      "learning_rate": 5e-05,
      "loss": 2.8825,
      "step": 1385
    },
    {
      "epoch": 0.17210977275549486,
      "grad_norm": 0.23948217928409576,
      "learning_rate": 5e-05,
      "loss": 1.7242,
      "step": 1386
    },
    {
      "epoch": 0.17223395008071526,
      "grad_norm": 0.2691064476966858,
      "learning_rate": 5e-05,
      "loss": 1.9609,
      "step": 1387
    },
    {
      "epoch": 0.17235812740593567,
      "grad_norm": 0.5158481001853943,
      "learning_rate": 5e-05,
      "loss": 4.332,
      "step": 1388
    },
    {
      "epoch": 0.17248230473115608,
      "grad_norm": 0.2692219018936157,
      "learning_rate": 5e-05,
      "loss": 2.1929,
      "step": 1389
    },
    {
      "epoch": 0.1726064820563765,
      "grad_norm": 0.26824715733528137,
      "learning_rate": 5e-05,
      "loss": 2.1272,
      "step": 1390
    },
    {
      "epoch": 0.17273065938159693,
      "grad_norm": 0.23186148703098297,
      "learning_rate": 5e-05,
      "loss": 1.7898,
      "step": 1391
    },
    {
      "epoch": 0.17285483670681734,
      "grad_norm": 0.24311073124408722,
      "learning_rate": 5e-05,
      "loss": 1.8924,
      "step": 1392
    },
    {
      "epoch": 0.17297901403203775,
      "grad_norm": 0.37856578826904297,
      "learning_rate": 5e-05,
      "loss": 2.707,
      "step": 1393
    },
    {
      "epoch": 0.17310319135725816,
      "grad_norm": 0.23472905158996582,
      "learning_rate": 5e-05,
      "loss": 1.81,
      "step": 1394
    },
    {
      "epoch": 0.17322736868247857,
      "grad_norm": 0.35837453603744507,
      "learning_rate": 5e-05,
      "loss": 2.4733,
      "step": 1395
    },
    {
      "epoch": 0.173351546007699,
      "grad_norm": 0.2707933783531189,
      "learning_rate": 5e-05,
      "loss": 2.0588,
      "step": 1396
    },
    {
      "epoch": 0.1734757233329194,
      "grad_norm": 0.24753183126449585,
      "learning_rate": 5e-05,
      "loss": 1.9286,
      "step": 1397
    },
    {
      "epoch": 0.17359990065813982,
      "grad_norm": 0.2418799102306366,
      "learning_rate": 5e-05,
      "loss": 1.7855,
      "step": 1398
    },
    {
      "epoch": 0.17372407798336023,
      "grad_norm": 0.22159628570079803,
      "learning_rate": 5e-05,
      "loss": 1.6137,
      "step": 1399
    },
    {
      "epoch": 0.17384825530858064,
      "grad_norm": 0.2428511530160904,
      "learning_rate": 5e-05,
      "loss": 1.8336,
      "step": 1400
    },
    {
      "epoch": 0.17397243263380108,
      "grad_norm": 0.26165932416915894,
      "learning_rate": 5e-05,
      "loss": 2.0209,
      "step": 1401
    },
    {
      "epoch": 0.1740966099590215,
      "grad_norm": 0.4102734625339508,
      "learning_rate": 5e-05,
      "loss": 2.7117,
      "step": 1402
    },
    {
      "epoch": 0.1742207872842419,
      "grad_norm": 0.2906935513019562,
      "learning_rate": 5e-05,
      "loss": 2.3419,
      "step": 1403
    },
    {
      "epoch": 0.1743449646094623,
      "grad_norm": 0.26342058181762695,
      "learning_rate": 5e-05,
      "loss": 1.9405,
      "step": 1404
    },
    {
      "epoch": 0.17446914193468271,
      "grad_norm": 0.26844656467437744,
      "learning_rate": 5e-05,
      "loss": 2.341,
      "step": 1405
    },
    {
      "epoch": 0.17459331925990315,
      "grad_norm": 0.3802238702774048,
      "learning_rate": 5e-05,
      "loss": 2.3929,
      "step": 1406
    },
    {
      "epoch": 0.17471749658512356,
      "grad_norm": 0.2770462930202484,
      "learning_rate": 5e-05,
      "loss": 2.1808,
      "step": 1407
    },
    {
      "epoch": 0.17484167391034397,
      "grad_norm": 0.2371964305639267,
      "learning_rate": 5e-05,
      "loss": 1.6153,
      "step": 1408
    },
    {
      "epoch": 0.17496585123556438,
      "grad_norm": 0.24255287647247314,
      "learning_rate": 5e-05,
      "loss": 1.7784,
      "step": 1409
    },
    {
      "epoch": 0.1750900285607848,
      "grad_norm": 0.29572808742523193,
      "learning_rate": 5e-05,
      "loss": 2.0706,
      "step": 1410
    },
    {
      "epoch": 0.17521420588600523,
      "grad_norm": 0.2493947595357895,
      "learning_rate": 5e-05,
      "loss": 1.7381,
      "step": 1411
    },
    {
      "epoch": 0.17533838321122563,
      "grad_norm": 0.26389703154563904,
      "learning_rate": 5e-05,
      "loss": 2.1818,
      "step": 1412
    },
    {
      "epoch": 0.17546256053644604,
      "grad_norm": 0.3114052712917328,
      "learning_rate": 5e-05,
      "loss": 2.2937,
      "step": 1413
    },
    {
      "epoch": 0.17558673786166645,
      "grad_norm": 0.265316367149353,
      "learning_rate": 5e-05,
      "loss": 2.0094,
      "step": 1414
    },
    {
      "epoch": 0.17571091518688686,
      "grad_norm": 0.23204118013381958,
      "learning_rate": 5e-05,
      "loss": 1.7295,
      "step": 1415
    },
    {
      "epoch": 0.1758350925121073,
      "grad_norm": 0.29755398631095886,
      "learning_rate": 5e-05,
      "loss": 2.0758,
      "step": 1416
    },
    {
      "epoch": 0.1759592698373277,
      "grad_norm": 0.2418096363544464,
      "learning_rate": 5e-05,
      "loss": 1.7773,
      "step": 1417
    },
    {
      "epoch": 0.17608344716254812,
      "grad_norm": 0.23157909512519836,
      "learning_rate": 5e-05,
      "loss": 1.7074,
      "step": 1418
    },
    {
      "epoch": 0.17620762448776853,
      "grad_norm": 0.2520146071910858,
      "learning_rate": 5e-05,
      "loss": 2.0032,
      "step": 1419
    },
    {
      "epoch": 0.17633180181298894,
      "grad_norm": 0.2604805827140808,
      "learning_rate": 5e-05,
      "loss": 2.1325,
      "step": 1420
    },
    {
      "epoch": 0.17645597913820937,
      "grad_norm": 0.2591821551322937,
      "learning_rate": 5e-05,
      "loss": 2.0302,
      "step": 1421
    },
    {
      "epoch": 0.17658015646342978,
      "grad_norm": 0.4048409163951874,
      "learning_rate": 5e-05,
      "loss": 2.5586,
      "step": 1422
    },
    {
      "epoch": 0.1767043337886502,
      "grad_norm": 0.2755661606788635,
      "learning_rate": 5e-05,
      "loss": 1.9671,
      "step": 1423
    },
    {
      "epoch": 0.1768285111138706,
      "grad_norm": 0.4293416142463684,
      "learning_rate": 5e-05,
      "loss": 2.6976,
      "step": 1424
    },
    {
      "epoch": 0.176952688439091,
      "grad_norm": 0.4016331136226654,
      "learning_rate": 5e-05,
      "loss": 2.3576,
      "step": 1425
    },
    {
      "epoch": 0.17707686576431145,
      "grad_norm": 0.3287256062030792,
      "learning_rate": 5e-05,
      "loss": 2.2676,
      "step": 1426
    },
    {
      "epoch": 0.17720104308953186,
      "grad_norm": 0.4586311876773834,
      "learning_rate": 5e-05,
      "loss": 2.9434,
      "step": 1427
    },
    {
      "epoch": 0.17732522041475227,
      "grad_norm": 0.2618440091609955,
      "learning_rate": 5e-05,
      "loss": 1.9483,
      "step": 1428
    },
    {
      "epoch": 0.17744939773997268,
      "grad_norm": 0.2931461036205292,
      "learning_rate": 5e-05,
      "loss": 1.9923,
      "step": 1429
    },
    {
      "epoch": 0.17757357506519308,
      "grad_norm": 0.26656579971313477,
      "learning_rate": 5e-05,
      "loss": 1.9064,
      "step": 1430
    },
    {
      "epoch": 0.17769775239041352,
      "grad_norm": 0.2721560597419739,
      "learning_rate": 5e-05,
      "loss": 1.8299,
      "step": 1431
    },
    {
      "epoch": 0.17782192971563393,
      "grad_norm": 0.2622223496437073,
      "learning_rate": 5e-05,
      "loss": 1.9364,
      "step": 1432
    },
    {
      "epoch": 0.17794610704085434,
      "grad_norm": 0.251390278339386,
      "learning_rate": 5e-05,
      "loss": 1.7021,
      "step": 1433
    },
    {
      "epoch": 0.17807028436607475,
      "grad_norm": 0.2672654986381531,
      "learning_rate": 5e-05,
      "loss": 1.9786,
      "step": 1434
    },
    {
      "epoch": 0.17819446169129516,
      "grad_norm": 0.27238285541534424,
      "learning_rate": 5e-05,
      "loss": 2.0547,
      "step": 1435
    },
    {
      "epoch": 0.1783186390165156,
      "grad_norm": 0.27467331290245056,
      "learning_rate": 5e-05,
      "loss": 2.3656,
      "step": 1436
    },
    {
      "epoch": 0.178442816341736,
      "grad_norm": 0.23343338072299957,
      "learning_rate": 5e-05,
      "loss": 1.6826,
      "step": 1437
    },
    {
      "epoch": 0.17856699366695641,
      "grad_norm": 0.36576956510543823,
      "learning_rate": 5e-05,
      "loss": 1.8527,
      "step": 1438
    },
    {
      "epoch": 0.17869117099217682,
      "grad_norm": 0.31418344378471375,
      "learning_rate": 5e-05,
      "loss": 2.2803,
      "step": 1439
    },
    {
      "epoch": 0.17881534831739723,
      "grad_norm": 0.33752280473709106,
      "learning_rate": 5e-05,
      "loss": 2.0256,
      "step": 1440
    },
    {
      "epoch": 0.17893952564261767,
      "grad_norm": 0.3247952461242676,
      "learning_rate": 5e-05,
      "loss": 2.3914,
      "step": 1441
    },
    {
      "epoch": 0.17906370296783808,
      "grad_norm": 0.22806139290332794,
      "learning_rate": 5e-05,
      "loss": 1.6938,
      "step": 1442
    },
    {
      "epoch": 0.1791878802930585,
      "grad_norm": 0.22137673199176788,
      "learning_rate": 5e-05,
      "loss": 1.8286,
      "step": 1443
    },
    {
      "epoch": 0.1793120576182789,
      "grad_norm": 0.25577589869499207,
      "learning_rate": 5e-05,
      "loss": 1.8923,
      "step": 1444
    },
    {
      "epoch": 0.1794362349434993,
      "grad_norm": 0.27369439601898193,
      "learning_rate": 5e-05,
      "loss": 2.1492,
      "step": 1445
    },
    {
      "epoch": 0.17956041226871974,
      "grad_norm": 0.49142706394195557,
      "learning_rate": 5e-05,
      "loss": 3.1958,
      "step": 1446
    },
    {
      "epoch": 0.17968458959394015,
      "grad_norm": 0.24683183431625366,
      "learning_rate": 5e-05,
      "loss": 1.888,
      "step": 1447
    },
    {
      "epoch": 0.17980876691916056,
      "grad_norm": 0.35656219720840454,
      "learning_rate": 5e-05,
      "loss": 2.5539,
      "step": 1448
    },
    {
      "epoch": 0.17993294424438097,
      "grad_norm": 0.40404483675956726,
      "learning_rate": 5e-05,
      "loss": 2.876,
      "step": 1449
    },
    {
      "epoch": 0.18005712156960138,
      "grad_norm": 0.30323413014411926,
      "learning_rate": 5e-05,
      "loss": 1.9658,
      "step": 1450
    },
    {
      "epoch": 0.18018129889482182,
      "grad_norm": 0.2609386742115021,
      "learning_rate": 5e-05,
      "loss": 1.8952,
      "step": 1451
    },
    {
      "epoch": 0.18030547622004223,
      "grad_norm": 0.26660341024398804,
      "learning_rate": 5e-05,
      "loss": 2.2509,
      "step": 1452
    },
    {
      "epoch": 0.18042965354526264,
      "grad_norm": 0.2815009653568268,
      "learning_rate": 5e-05,
      "loss": 1.8909,
      "step": 1453
    },
    {
      "epoch": 0.18055383087048305,
      "grad_norm": 0.27161529660224915,
      "learning_rate": 5e-05,
      "loss": 1.9646,
      "step": 1454
    },
    {
      "epoch": 0.18067800819570345,
      "grad_norm": 0.3715043067932129,
      "learning_rate": 5e-05,
      "loss": 2.7612,
      "step": 1455
    },
    {
      "epoch": 0.1808021855209239,
      "grad_norm": 0.23395122587680817,
      "learning_rate": 5e-05,
      "loss": 1.6155,
      "step": 1456
    },
    {
      "epoch": 0.1809263628461443,
      "grad_norm": 0.2671591341495514,
      "learning_rate": 5e-05,
      "loss": 2.0628,
      "step": 1457
    },
    {
      "epoch": 0.1810505401713647,
      "grad_norm": 0.2846117317676544,
      "learning_rate": 5e-05,
      "loss": 2.5625,
      "step": 1458
    },
    {
      "epoch": 0.18117471749658512,
      "grad_norm": 0.3615747094154358,
      "learning_rate": 5e-05,
      "loss": 2.6498,
      "step": 1459
    },
    {
      "epoch": 0.18129889482180553,
      "grad_norm": 0.26534903049468994,
      "learning_rate": 5e-05,
      "loss": 1.7613,
      "step": 1460
    },
    {
      "epoch": 0.18142307214702597,
      "grad_norm": 0.35508978366851807,
      "learning_rate": 5e-05,
      "loss": 2.5538,
      "step": 1461
    },
    {
      "epoch": 0.18154724947224637,
      "grad_norm": 0.31567883491516113,
      "learning_rate": 5e-05,
      "loss": 2.0223,
      "step": 1462
    },
    {
      "epoch": 0.18167142679746678,
      "grad_norm": 0.24844303727149963,
      "learning_rate": 5e-05,
      "loss": 2.1412,
      "step": 1463
    },
    {
      "epoch": 0.1817956041226872,
      "grad_norm": 0.23571166396141052,
      "learning_rate": 5e-05,
      "loss": 1.769,
      "step": 1464
    },
    {
      "epoch": 0.1819197814479076,
      "grad_norm": 0.2513312101364136,
      "learning_rate": 5e-05,
      "loss": 2.057,
      "step": 1465
    },
    {
      "epoch": 0.18204395877312804,
      "grad_norm": 0.25203919410705566,
      "learning_rate": 5e-05,
      "loss": 1.8129,
      "step": 1466
    },
    {
      "epoch": 0.18216813609834845,
      "grad_norm": 0.5145329236984253,
      "learning_rate": 5e-05,
      "loss": 2.8447,
      "step": 1467
    },
    {
      "epoch": 0.18229231342356886,
      "grad_norm": 0.2694832384586334,
      "learning_rate": 5e-05,
      "loss": 1.8948,
      "step": 1468
    },
    {
      "epoch": 0.18241649074878927,
      "grad_norm": 0.24046273529529572,
      "learning_rate": 5e-05,
      "loss": 1.9026,
      "step": 1469
    },
    {
      "epoch": 0.18254066807400968,
      "grad_norm": 0.30585774779319763,
      "learning_rate": 5e-05,
      "loss": 2.4001,
      "step": 1470
    },
    {
      "epoch": 0.1826648453992301,
      "grad_norm": 0.25027376413345337,
      "learning_rate": 5e-05,
      "loss": 1.7056,
      "step": 1471
    },
    {
      "epoch": 0.18278902272445052,
      "grad_norm": 0.8577630519866943,
      "learning_rate": 5e-05,
      "loss": 3.3302,
      "step": 1472
    },
    {
      "epoch": 0.18291320004967093,
      "grad_norm": 0.24672439694404602,
      "learning_rate": 5e-05,
      "loss": 1.7994,
      "step": 1473
    },
    {
      "epoch": 0.18303737737489134,
      "grad_norm": 0.25796759128570557,
      "learning_rate": 5e-05,
      "loss": 1.9372,
      "step": 1474
    },
    {
      "epoch": 0.18316155470011175,
      "grad_norm": 0.44984665513038635,
      "learning_rate": 5e-05,
      "loss": 2.3565,
      "step": 1475
    },
    {
      "epoch": 0.1832857320253322,
      "grad_norm": 0.3122994303703308,
      "learning_rate": 5e-05,
      "loss": 2.153,
      "step": 1476
    },
    {
      "epoch": 0.1834099093505526,
      "grad_norm": 0.31633636355400085,
      "learning_rate": 5e-05,
      "loss": 1.9941,
      "step": 1477
    },
    {
      "epoch": 0.183534086675773,
      "grad_norm": 0.2333393096923828,
      "learning_rate": 5e-05,
      "loss": 1.6817,
      "step": 1478
    },
    {
      "epoch": 0.18365826400099342,
      "grad_norm": 0.32502904534339905,
      "learning_rate": 5e-05,
      "loss": 1.9969,
      "step": 1479
    },
    {
      "epoch": 0.18378244132621382,
      "grad_norm": 0.2573794722557068,
      "learning_rate": 5e-05,
      "loss": 1.9469,
      "step": 1480
    },
    {
      "epoch": 0.18390661865143426,
      "grad_norm": 0.2532219886779785,
      "learning_rate": 5e-05,
      "loss": 1.767,
      "step": 1481
    },
    {
      "epoch": 0.18403079597665467,
      "grad_norm": 0.2704537510871887,
      "learning_rate": 5e-05,
      "loss": 2.0838,
      "step": 1482
    },
    {
      "epoch": 0.18415497330187508,
      "grad_norm": 0.2416088879108429,
      "learning_rate": 5e-05,
      "loss": 1.7621,
      "step": 1483
    },
    {
      "epoch": 0.1842791506270955,
      "grad_norm": 0.2926209270954132,
      "learning_rate": 5e-05,
      "loss": 2.0904,
      "step": 1484
    },
    {
      "epoch": 0.1844033279523159,
      "grad_norm": 0.2582109570503235,
      "learning_rate": 5e-05,
      "loss": 2.1826,
      "step": 1485
    },
    {
      "epoch": 0.18452750527753634,
      "grad_norm": 0.4070335626602173,
      "learning_rate": 5e-05,
      "loss": 2.7879,
      "step": 1486
    },
    {
      "epoch": 0.18465168260275674,
      "grad_norm": 0.23861896991729736,
      "learning_rate": 5e-05,
      "loss": 1.8033,
      "step": 1487
    },
    {
      "epoch": 0.18477585992797715,
      "grad_norm": 0.24718508124351501,
      "learning_rate": 5e-05,
      "loss": 1.9015,
      "step": 1488
    },
    {
      "epoch": 0.18490003725319756,
      "grad_norm": 0.2664046585559845,
      "learning_rate": 5e-05,
      "loss": 1.9978,
      "step": 1489
    },
    {
      "epoch": 0.18502421457841797,
      "grad_norm": 0.31886690855026245,
      "learning_rate": 5e-05,
      "loss": 2.0193,
      "step": 1490
    },
    {
      "epoch": 0.18514839190363838,
      "grad_norm": 0.2447976917028427,
      "learning_rate": 5e-05,
      "loss": 1.883,
      "step": 1491
    },
    {
      "epoch": 0.18527256922885882,
      "grad_norm": 0.23854738473892212,
      "learning_rate": 5e-05,
      "loss": 2.0306,
      "step": 1492
    },
    {
      "epoch": 0.18539674655407923,
      "grad_norm": 0.25025415420532227,
      "learning_rate": 5e-05,
      "loss": 1.9011,
      "step": 1493
    },
    {
      "epoch": 0.18552092387929964,
      "grad_norm": 0.22724208235740662,
      "learning_rate": 5e-05,
      "loss": 1.735,
      "step": 1494
    },
    {
      "epoch": 0.18564510120452005,
      "grad_norm": 0.5102798938751221,
      "learning_rate": 5e-05,
      "loss": 2.8414,
      "step": 1495
    },
    {
      "epoch": 0.18576927852974046,
      "grad_norm": 0.7088466286659241,
      "learning_rate": 5e-05,
      "loss": 3.0139,
      "step": 1496
    },
    {
      "epoch": 0.1858934558549609,
      "grad_norm": 0.3303782641887665,
      "learning_rate": 5e-05,
      "loss": 2.1261,
      "step": 1497
    },
    {
      "epoch": 0.1860176331801813,
      "grad_norm": 0.39420267939567566,
      "learning_rate": 5e-05,
      "loss": 2.7424,
      "step": 1498
    },
    {
      "epoch": 0.1861418105054017,
      "grad_norm": 0.3486965298652649,
      "learning_rate": 5e-05,
      "loss": 2.6139,
      "step": 1499
    },
    {
      "epoch": 0.18626598783062212,
      "grad_norm": 0.35490652918815613,
      "learning_rate": 5e-05,
      "loss": 2.8292,
      "step": 1500
    },
    {
      "epoch": 0.18639016515584253,
      "grad_norm": 0.25819462537765503,
      "learning_rate": 5e-05,
      "loss": 1.8759,
      "step": 1501
    },
    {
      "epoch": 0.18651434248106297,
      "grad_norm": 0.2749720513820648,
      "learning_rate": 5e-05,
      "loss": 1.9739,
      "step": 1502
    },
    {
      "epoch": 0.18663851980628338,
      "grad_norm": 0.26363909244537354,
      "learning_rate": 5e-05,
      "loss": 1.9509,
      "step": 1503
    },
    {
      "epoch": 0.18676269713150379,
      "grad_norm": 0.2797585129737854,
      "learning_rate": 5e-05,
      "loss": 1.6516,
      "step": 1504
    },
    {
      "epoch": 0.1868868744567242,
      "grad_norm": 0.2494063377380371,
      "learning_rate": 5e-05,
      "loss": 1.7693,
      "step": 1505
    },
    {
      "epoch": 0.1870110517819446,
      "grad_norm": 0.2863432466983795,
      "learning_rate": 5e-05,
      "loss": 1.9949,
      "step": 1506
    },
    {
      "epoch": 0.18713522910716504,
      "grad_norm": 0.3042944371700287,
      "learning_rate": 5e-05,
      "loss": 2.3896,
      "step": 1507
    },
    {
      "epoch": 0.18725940643238545,
      "grad_norm": 0.273322731256485,
      "learning_rate": 5e-05,
      "loss": 1.8971,
      "step": 1508
    },
    {
      "epoch": 0.18738358375760586,
      "grad_norm": 0.5020868182182312,
      "learning_rate": 5e-05,
      "loss": 3.0533,
      "step": 1509
    },
    {
      "epoch": 0.18750776108282627,
      "grad_norm": 0.31023505330085754,
      "learning_rate": 5e-05,
      "loss": 2.0806,
      "step": 1510
    },
    {
      "epoch": 0.18763193840804668,
      "grad_norm": 0.25057369470596313,
      "learning_rate": 5e-05,
      "loss": 1.739,
      "step": 1511
    },
    {
      "epoch": 0.18775611573326711,
      "grad_norm": 0.27967381477355957,
      "learning_rate": 5e-05,
      "loss": 2.0262,
      "step": 1512
    },
    {
      "epoch": 0.18788029305848752,
      "grad_norm": 0.30165356397628784,
      "learning_rate": 5e-05,
      "loss": 2.2071,
      "step": 1513
    },
    {
      "epoch": 0.18800447038370793,
      "grad_norm": 0.3059106469154358,
      "learning_rate": 5e-05,
      "loss": 2.167,
      "step": 1514
    },
    {
      "epoch": 0.18812864770892834,
      "grad_norm": 0.31898683309555054,
      "learning_rate": 5e-05,
      "loss": 1.8459,
      "step": 1515
    },
    {
      "epoch": 0.18825282503414875,
      "grad_norm": 0.28176411986351013,
      "learning_rate": 5e-05,
      "loss": 2.2245,
      "step": 1516
    },
    {
      "epoch": 0.1883770023593692,
      "grad_norm": 0.2570262849330902,
      "learning_rate": 5e-05,
      "loss": 1.8478,
      "step": 1517
    },
    {
      "epoch": 0.1885011796845896,
      "grad_norm": 0.24826116859912872,
      "learning_rate": 5e-05,
      "loss": 2.0992,
      "step": 1518
    },
    {
      "epoch": 0.18862535700981,
      "grad_norm": 0.2679319381713867,
      "learning_rate": 5e-05,
      "loss": 2.107,
      "step": 1519
    },
    {
      "epoch": 0.18874953433503042,
      "grad_norm": 0.4362642765045166,
      "learning_rate": 5e-05,
      "loss": 2.9655,
      "step": 1520
    },
    {
      "epoch": 0.18887371166025083,
      "grad_norm": 0.25429272651672363,
      "learning_rate": 5e-05,
      "loss": 1.8646,
      "step": 1521
    },
    {
      "epoch": 0.18899788898547126,
      "grad_norm": 0.24654313921928406,
      "learning_rate": 5e-05,
      "loss": 1.9151,
      "step": 1522
    },
    {
      "epoch": 0.18912206631069167,
      "grad_norm": 0.2695249617099762,
      "learning_rate": 5e-05,
      "loss": 1.9894,
      "step": 1523
    },
    {
      "epoch": 0.18924624363591208,
      "grad_norm": 0.24986152350902557,
      "learning_rate": 5e-05,
      "loss": 2.0994,
      "step": 1524
    },
    {
      "epoch": 0.1893704209611325,
      "grad_norm": 0.3021607995033264,
      "learning_rate": 5e-05,
      "loss": 2.1058,
      "step": 1525
    },
    {
      "epoch": 0.1894945982863529,
      "grad_norm": 0.25152772665023804,
      "learning_rate": 5e-05,
      "loss": 1.9933,
      "step": 1526
    },
    {
      "epoch": 0.18961877561157334,
      "grad_norm": 0.22843512892723083,
      "learning_rate": 5e-05,
      "loss": 1.8159,
      "step": 1527
    },
    {
      "epoch": 0.18974295293679375,
      "grad_norm": 0.6565892696380615,
      "learning_rate": 5e-05,
      "loss": 2.8925,
      "step": 1528
    },
    {
      "epoch": 0.18986713026201416,
      "grad_norm": 0.3402864336967468,
      "learning_rate": 5e-05,
      "loss": 2.5189,
      "step": 1529
    },
    {
      "epoch": 0.18999130758723456,
      "grad_norm": 0.25821635127067566,
      "learning_rate": 5e-05,
      "loss": 2.1182,
      "step": 1530
    },
    {
      "epoch": 0.19011548491245497,
      "grad_norm": 0.37273097038269043,
      "learning_rate": 5e-05,
      "loss": 2.5305,
      "step": 1531
    },
    {
      "epoch": 0.1902396622376754,
      "grad_norm": 0.25413644313812256,
      "learning_rate": 5e-05,
      "loss": 1.8807,
      "step": 1532
    },
    {
      "epoch": 0.19036383956289582,
      "grad_norm": 0.36151304841041565,
      "learning_rate": 5e-05,
      "loss": 2.6395,
      "step": 1533
    },
    {
      "epoch": 0.19048801688811623,
      "grad_norm": 0.23387369513511658,
      "learning_rate": 5e-05,
      "loss": 1.7179,
      "step": 1534
    },
    {
      "epoch": 0.19061219421333664,
      "grad_norm": 0.2963470220565796,
      "learning_rate": 5e-05,
      "loss": 2.3148,
      "step": 1535
    },
    {
      "epoch": 0.19073637153855705,
      "grad_norm": 0.2130885273218155,
      "learning_rate": 5e-05,
      "loss": 1.6016,
      "step": 1536
    },
    {
      "epoch": 0.19086054886377748,
      "grad_norm": 0.30370479822158813,
      "learning_rate": 5e-05,
      "loss": 2.3556,
      "step": 1537
    },
    {
      "epoch": 0.1909847261889979,
      "grad_norm": 0.4362613558769226,
      "learning_rate": 5e-05,
      "loss": 2.7549,
      "step": 1538
    },
    {
      "epoch": 0.1911089035142183,
      "grad_norm": 0.26847660541534424,
      "learning_rate": 5e-05,
      "loss": 2.0242,
      "step": 1539
    },
    {
      "epoch": 0.1912330808394387,
      "grad_norm": 0.2961687445640564,
      "learning_rate": 5e-05,
      "loss": 2.2042,
      "step": 1540
    },
    {
      "epoch": 0.19135725816465912,
      "grad_norm": 0.5650090575218201,
      "learning_rate": 5e-05,
      "loss": 2.1309,
      "step": 1541
    },
    {
      "epoch": 0.19148143548987956,
      "grad_norm": 0.2385435253381729,
      "learning_rate": 5e-05,
      "loss": 1.806,
      "step": 1542
    },
    {
      "epoch": 0.19160561281509997,
      "grad_norm": 0.312453955411911,
      "learning_rate": 5e-05,
      "loss": 2.1856,
      "step": 1543
    },
    {
      "epoch": 0.19172979014032038,
      "grad_norm": 0.24249126017093658,
      "learning_rate": 5e-05,
      "loss": 1.9009,
      "step": 1544
    },
    {
      "epoch": 0.1918539674655408,
      "grad_norm": 0.2648986876010895,
      "learning_rate": 5e-05,
      "loss": 2.1276,
      "step": 1545
    },
    {
      "epoch": 0.1919781447907612,
      "grad_norm": 0.28648820519447327,
      "learning_rate": 5e-05,
      "loss": 2.0801,
      "step": 1546
    },
    {
      "epoch": 0.19210232211598163,
      "grad_norm": 0.263574481010437,
      "learning_rate": 5e-05,
      "loss": 1.9834,
      "step": 1547
    },
    {
      "epoch": 0.19222649944120204,
      "grad_norm": 0.24371059238910675,
      "learning_rate": 5e-05,
      "loss": 1.9919,
      "step": 1548
    },
    {
      "epoch": 0.19235067676642245,
      "grad_norm": 0.5045280456542969,
      "learning_rate": 5e-05,
      "loss": 2.663,
      "step": 1549
    },
    {
      "epoch": 0.19247485409164286,
      "grad_norm": 0.25062283873558044,
      "learning_rate": 5e-05,
      "loss": 1.8231,
      "step": 1550
    },
    {
      "epoch": 0.19259903141686327,
      "grad_norm": 0.3823087513446808,
      "learning_rate": 5e-05,
      "loss": 2.8503,
      "step": 1551
    },
    {
      "epoch": 0.1927232087420837,
      "grad_norm": 0.27880576252937317,
      "learning_rate": 5e-05,
      "loss": 1.6444,
      "step": 1552
    },
    {
      "epoch": 0.19284738606730412,
      "grad_norm": 0.2568613290786743,
      "learning_rate": 5e-05,
      "loss": 1.8033,
      "step": 1553
    },
    {
      "epoch": 0.19297156339252453,
      "grad_norm": 0.3594647943973541,
      "learning_rate": 5e-05,
      "loss": 2.2217,
      "step": 1554
    },
    {
      "epoch": 0.19309574071774493,
      "grad_norm": 0.31526440382003784,
      "learning_rate": 5e-05,
      "loss": 1.865,
      "step": 1555
    },
    {
      "epoch": 0.19321991804296534,
      "grad_norm": 0.2625117599964142,
      "learning_rate": 5e-05,
      "loss": 2.0194,
      "step": 1556
    },
    {
      "epoch": 0.19334409536818578,
      "grad_norm": 0.30689170956611633,
      "learning_rate": 5e-05,
      "loss": 2.3,
      "step": 1557
    },
    {
      "epoch": 0.1934682726934062,
      "grad_norm": 0.3984525203704834,
      "learning_rate": 5e-05,
      "loss": 3.0515,
      "step": 1558
    },
    {
      "epoch": 0.1935924500186266,
      "grad_norm": 0.2914687395095825,
      "learning_rate": 5e-05,
      "loss": 2.1995,
      "step": 1559
    },
    {
      "epoch": 0.193716627343847,
      "grad_norm": 0.29401513934135437,
      "learning_rate": 5e-05,
      "loss": 2.3355,
      "step": 1560
    },
    {
      "epoch": 0.19384080466906742,
      "grad_norm": 0.313436895608902,
      "learning_rate": 5e-05,
      "loss": 2.6096,
      "step": 1561
    },
    {
      "epoch": 0.19396498199428786,
      "grad_norm": 0.24266557395458221,
      "learning_rate": 5e-05,
      "loss": 1.8797,
      "step": 1562
    },
    {
      "epoch": 0.19408915931950826,
      "grad_norm": 0.5439087748527527,
      "learning_rate": 5e-05,
      "loss": 3.3252,
      "step": 1563
    },
    {
      "epoch": 0.19421333664472867,
      "grad_norm": 0.2875012159347534,
      "learning_rate": 5e-05,
      "loss": 1.8611,
      "step": 1564
    },
    {
      "epoch": 0.19433751396994908,
      "grad_norm": 0.42187750339508057,
      "learning_rate": 5e-05,
      "loss": 2.5633,
      "step": 1565
    },
    {
      "epoch": 0.1944616912951695,
      "grad_norm": 0.2605687975883484,
      "learning_rate": 5e-05,
      "loss": 1.7025,
      "step": 1566
    },
    {
      "epoch": 0.19458586862038993,
      "grad_norm": 0.241758793592453,
      "learning_rate": 5e-05,
      "loss": 1.681,
      "step": 1567
    },
    {
      "epoch": 0.19471004594561034,
      "grad_norm": 0.2815418243408203,
      "learning_rate": 5e-05,
      "loss": 1.8833,
      "step": 1568
    },
    {
      "epoch": 0.19483422327083075,
      "grad_norm": 0.23800040781497955,
      "learning_rate": 5e-05,
      "loss": 1.746,
      "step": 1569
    },
    {
      "epoch": 0.19495840059605116,
      "grad_norm": 0.2602657377719879,
      "learning_rate": 5e-05,
      "loss": 2.0523,
      "step": 1570
    },
    {
      "epoch": 0.19508257792127157,
      "grad_norm": 0.2506142556667328,
      "learning_rate": 5e-05,
      "loss": 1.9698,
      "step": 1571
    },
    {
      "epoch": 0.195206755246492,
      "grad_norm": 0.274129718542099,
      "learning_rate": 5e-05,
      "loss": 2.0293,
      "step": 1572
    },
    {
      "epoch": 0.1953309325717124,
      "grad_norm": 0.21423161029815674,
      "learning_rate": 5e-05,
      "loss": 1.74,
      "step": 1573
    },
    {
      "epoch": 0.19545510989693282,
      "grad_norm": 0.2414734810590744,
      "learning_rate": 5e-05,
      "loss": 1.918,
      "step": 1574
    },
    {
      "epoch": 0.19557928722215323,
      "grad_norm": 0.303185373544693,
      "learning_rate": 5e-05,
      "loss": 2.1095,
      "step": 1575
    },
    {
      "epoch": 0.19570346454737364,
      "grad_norm": 0.35101062059402466,
      "learning_rate": 5e-05,
      "loss": 2.2749,
      "step": 1576
    },
    {
      "epoch": 0.19582764187259408,
      "grad_norm": 0.23602382838726044,
      "learning_rate": 5e-05,
      "loss": 1.8409,
      "step": 1577
    },
    {
      "epoch": 0.1959518191978145,
      "grad_norm": 0.23884277045726776,
      "learning_rate": 5e-05,
      "loss": 1.665,
      "step": 1578
    },
    {
      "epoch": 0.1960759965230349,
      "grad_norm": 0.2590658664703369,
      "learning_rate": 5e-05,
      "loss": 1.8435,
      "step": 1579
    },
    {
      "epoch": 0.1962001738482553,
      "grad_norm": 0.26221731305122375,
      "learning_rate": 5e-05,
      "loss": 2.0502,
      "step": 1580
    },
    {
      "epoch": 0.19632435117347571,
      "grad_norm": 0.22786976397037506,
      "learning_rate": 5e-05,
      "loss": 1.6887,
      "step": 1581
    },
    {
      "epoch": 0.19644852849869615,
      "grad_norm": 0.2415599822998047,
      "learning_rate": 5e-05,
      "loss": 1.9872,
      "step": 1582
    },
    {
      "epoch": 0.19657270582391656,
      "grad_norm": 0.5078092217445374,
      "learning_rate": 5e-05,
      "loss": 3.5464,
      "step": 1583
    },
    {
      "epoch": 0.19669688314913697,
      "grad_norm": 0.24448655545711517,
      "learning_rate": 5e-05,
      "loss": 1.8582,
      "step": 1584
    },
    {
      "epoch": 0.19682106047435738,
      "grad_norm": 0.44471386075019836,
      "learning_rate": 5e-05,
      "loss": 2.8817,
      "step": 1585
    },
    {
      "epoch": 0.1969452377995778,
      "grad_norm": 0.2776273787021637,
      "learning_rate": 5e-05,
      "loss": 1.9268,
      "step": 1586
    },
    {
      "epoch": 0.19706941512479823,
      "grad_norm": 0.2519216239452362,
      "learning_rate": 5e-05,
      "loss": 1.7644,
      "step": 1587
    },
    {
      "epoch": 0.19719359245001863,
      "grad_norm": 0.2582288682460785,
      "learning_rate": 5e-05,
      "loss": 1.8588,
      "step": 1588
    },
    {
      "epoch": 0.19731776977523904,
      "grad_norm": 0.25764769315719604,
      "learning_rate": 5e-05,
      "loss": 2.1778,
      "step": 1589
    },
    {
      "epoch": 0.19744194710045945,
      "grad_norm": 0.24313528835773468,
      "learning_rate": 5e-05,
      "loss": 1.9725,
      "step": 1590
    },
    {
      "epoch": 0.19756612442567986,
      "grad_norm": 0.23823384940624237,
      "learning_rate": 5e-05,
      "loss": 1.8506,
      "step": 1591
    },
    {
      "epoch": 0.1976903017509003,
      "grad_norm": 0.2740623950958252,
      "learning_rate": 5e-05,
      "loss": 2.1847,
      "step": 1592
    },
    {
      "epoch": 0.1978144790761207,
      "grad_norm": 0.5463706254959106,
      "learning_rate": 5e-05,
      "loss": 3.0436,
      "step": 1593
    },
    {
      "epoch": 0.19793865640134112,
      "grad_norm": 0.25261610746383667,
      "learning_rate": 5e-05,
      "loss": 1.9796,
      "step": 1594
    },
    {
      "epoch": 0.19806283372656153,
      "grad_norm": 0.23600277304649353,
      "learning_rate": 5e-05,
      "loss": 1.6148,
      "step": 1595
    },
    {
      "epoch": 0.19818701105178194,
      "grad_norm": 0.31440797448158264,
      "learning_rate": 5e-05,
      "loss": 1.9735,
      "step": 1596
    },
    {
      "epoch": 0.19831118837700237,
      "grad_norm": 0.26265764236450195,
      "learning_rate": 5e-05,
      "loss": 1.6048,
      "step": 1597
    },
    {
      "epoch": 0.19843536570222278,
      "grad_norm": 0.29170727729797363,
      "learning_rate": 5e-05,
      "loss": 1.791,
      "step": 1598
    },
    {
      "epoch": 0.1985595430274432,
      "grad_norm": 0.2299099862575531,
      "learning_rate": 5e-05,
      "loss": 1.7237,
      "step": 1599
    },
    {
      "epoch": 0.1986837203526636,
      "grad_norm": 0.24569188058376312,
      "learning_rate": 5e-05,
      "loss": 1.7551,
      "step": 1600
    },
    {
      "epoch": 0.198807897677884,
      "grad_norm": 0.31103986501693726,
      "learning_rate": 5e-05,
      "loss": 2.1028,
      "step": 1601
    },
    {
      "epoch": 0.19893207500310442,
      "grad_norm": 0.5164408683776855,
      "learning_rate": 5e-05,
      "loss": 3.2438,
      "step": 1602
    },
    {
      "epoch": 0.19905625232832486,
      "grad_norm": 0.2590464949607849,
      "learning_rate": 5e-05,
      "loss": 1.6186,
      "step": 1603
    },
    {
      "epoch": 0.19918042965354527,
      "grad_norm": 0.26119983196258545,
      "learning_rate": 5e-05,
      "loss": 1.8619,
      "step": 1604
    },
    {
      "epoch": 0.19930460697876567,
      "grad_norm": 0.2564757466316223,
      "learning_rate": 5e-05,
      "loss": 1.8927,
      "step": 1605
    },
    {
      "epoch": 0.19942878430398608,
      "grad_norm": 0.23796196281909943,
      "learning_rate": 5e-05,
      "loss": 1.7918,
      "step": 1606
    },
    {
      "epoch": 0.1995529616292065,
      "grad_norm": 0.29652640223503113,
      "learning_rate": 5e-05,
      "loss": 1.9427,
      "step": 1607
    },
    {
      "epoch": 0.19967713895442693,
      "grad_norm": 0.5349125862121582,
      "learning_rate": 5e-05,
      "loss": 2.5095,
      "step": 1608
    },
    {
      "epoch": 0.19980131627964734,
      "grad_norm": 0.2431587427854538,
      "learning_rate": 5e-05,
      "loss": 1.7721,
      "step": 1609
    },
    {
      "epoch": 0.19992549360486775,
      "grad_norm": 0.3856450617313385,
      "learning_rate": 5e-05,
      "loss": 3.0868,
      "step": 1610
    },
    {
      "epoch": 0.20004967093008816,
      "grad_norm": 0.2545795738697052,
      "learning_rate": 5e-05,
      "loss": 1.9842,
      "step": 1611
    },
    {
      "epoch": 0.20017384825530857,
      "grad_norm": 0.2770799696445465,
      "learning_rate": 5e-05,
      "loss": 2.2248,
      "step": 1612
    },
    {
      "epoch": 0.200298025580529,
      "grad_norm": 0.25927576422691345,
      "learning_rate": 5e-05,
      "loss": 1.8765,
      "step": 1613
    },
    {
      "epoch": 0.2004222029057494,
      "grad_norm": 0.3126044273376465,
      "learning_rate": 5e-05,
      "loss": 2.1229,
      "step": 1614
    },
    {
      "epoch": 0.20054638023096982,
      "grad_norm": 0.23928864300251007,
      "learning_rate": 5e-05,
      "loss": 1.6578,
      "step": 1615
    },
    {
      "epoch": 0.20067055755619023,
      "grad_norm": 0.24184995889663696,
      "learning_rate": 5e-05,
      "loss": 1.6824,
      "step": 1616
    },
    {
      "epoch": 0.20079473488141064,
      "grad_norm": 0.4060536324977875,
      "learning_rate": 5e-05,
      "loss": 2.6177,
      "step": 1617
    },
    {
      "epoch": 0.20091891220663108,
      "grad_norm": 0.26484787464141846,
      "learning_rate": 5e-05,
      "loss": 1.8741,
      "step": 1618
    },
    {
      "epoch": 0.2010430895318515,
      "grad_norm": 0.4881327450275421,
      "learning_rate": 5e-05,
      "loss": 2.8875,
      "step": 1619
    },
    {
      "epoch": 0.2011672668570719,
      "grad_norm": 0.4290279448032379,
      "learning_rate": 5e-05,
      "loss": 3.3519,
      "step": 1620
    },
    {
      "epoch": 0.2012914441822923,
      "grad_norm": 0.3032493591308594,
      "learning_rate": 5e-05,
      "loss": 2.0804,
      "step": 1621
    },
    {
      "epoch": 0.20141562150751272,
      "grad_norm": 0.2680701017379761,
      "learning_rate": 5e-05,
      "loss": 1.9729,
      "step": 1622
    },
    {
      "epoch": 0.20153979883273315,
      "grad_norm": 0.2793412208557129,
      "learning_rate": 5e-05,
      "loss": 1.9686,
      "step": 1623
    },
    {
      "epoch": 0.20166397615795356,
      "grad_norm": 0.24099324643611908,
      "learning_rate": 5e-05,
      "loss": 1.9883,
      "step": 1624
    },
    {
      "epoch": 0.20178815348317397,
      "grad_norm": 0.24999384582042694,
      "learning_rate": 5e-05,
      "loss": 1.8092,
      "step": 1625
    },
    {
      "epoch": 0.20191233080839438,
      "grad_norm": 0.24993352591991425,
      "learning_rate": 5e-05,
      "loss": 1.9533,
      "step": 1626
    },
    {
      "epoch": 0.2020365081336148,
      "grad_norm": 0.24249236285686493,
      "learning_rate": 5e-05,
      "loss": 1.7275,
      "step": 1627
    },
    {
      "epoch": 0.20216068545883523,
      "grad_norm": 0.22344590723514557,
      "learning_rate": 5e-05,
      "loss": 1.8207,
      "step": 1628
    },
    {
      "epoch": 0.20228486278405564,
      "grad_norm": 0.32327112555503845,
      "learning_rate": 5e-05,
      "loss": 2.1362,
      "step": 1629
    },
    {
      "epoch": 0.20240904010927604,
      "grad_norm": 0.2718002498149872,
      "learning_rate": 5e-05,
      "loss": 1.8973,
      "step": 1630
    },
    {
      "epoch": 0.20253321743449645,
      "grad_norm": 0.3098478615283966,
      "learning_rate": 5e-05,
      "loss": 2.0483,
      "step": 1631
    },
    {
      "epoch": 0.20265739475971686,
      "grad_norm": 0.2578212022781372,
      "learning_rate": 5e-05,
      "loss": 1.9976,
      "step": 1632
    },
    {
      "epoch": 0.2027815720849373,
      "grad_norm": 0.24807208776474,
      "learning_rate": 5e-05,
      "loss": 1.9823,
      "step": 1633
    },
    {
      "epoch": 0.2029057494101577,
      "grad_norm": 0.23889771103858948,
      "learning_rate": 5e-05,
      "loss": 2.0429,
      "step": 1634
    },
    {
      "epoch": 0.20302992673537812,
      "grad_norm": 0.29187577962875366,
      "learning_rate": 5e-05,
      "loss": 2.3723,
      "step": 1635
    },
    {
      "epoch": 0.20315410406059853,
      "grad_norm": 0.24887806177139282,
      "learning_rate": 5e-05,
      "loss": 1.981,
      "step": 1636
    },
    {
      "epoch": 0.20327828138581894,
      "grad_norm": 0.2588616609573364,
      "learning_rate": 5e-05,
      "loss": 1.8584,
      "step": 1637
    },
    {
      "epoch": 0.20340245871103937,
      "grad_norm": 0.37118417024612427,
      "learning_rate": 5e-05,
      "loss": 2.517,
      "step": 1638
    },
    {
      "epoch": 0.20352663603625978,
      "grad_norm": 0.24805858731269836,
      "learning_rate": 5e-05,
      "loss": 1.9279,
      "step": 1639
    },
    {
      "epoch": 0.2036508133614802,
      "grad_norm": 0.2555654048919678,
      "learning_rate": 5e-05,
      "loss": 1.9295,
      "step": 1640
    },
    {
      "epoch": 0.2037749906867006,
      "grad_norm": 0.2625608742237091,
      "learning_rate": 5e-05,
      "loss": 1.8236,
      "step": 1641
    },
    {
      "epoch": 0.203899168011921,
      "grad_norm": 0.25353118777275085,
      "learning_rate": 5e-05,
      "loss": 2.0502,
      "step": 1642
    },
    {
      "epoch": 0.20402334533714145,
      "grad_norm": 0.295852929353714,
      "learning_rate": 5e-05,
      "loss": 2.1663,
      "step": 1643
    },
    {
      "epoch": 0.20414752266236186,
      "grad_norm": 0.33449020981788635,
      "learning_rate": 5e-05,
      "loss": 2.5646,
      "step": 1644
    },
    {
      "epoch": 0.20427169998758227,
      "grad_norm": 0.26184529066085815,
      "learning_rate": 5e-05,
      "loss": 2.1138,
      "step": 1645
    },
    {
      "epoch": 0.20439587731280268,
      "grad_norm": 0.24221271276474,
      "learning_rate": 5e-05,
      "loss": 1.7526,
      "step": 1646
    },
    {
      "epoch": 0.20452005463802309,
      "grad_norm": 0.28155601024627686,
      "learning_rate": 5e-05,
      "loss": 2.1057,
      "step": 1647
    },
    {
      "epoch": 0.20464423196324352,
      "grad_norm": 0.2601582705974579,
      "learning_rate": 5e-05,
      "loss": 1.9401,
      "step": 1648
    },
    {
      "epoch": 0.20476840928846393,
      "grad_norm": 0.28566107153892517,
      "learning_rate": 5e-05,
      "loss": 2.0327,
      "step": 1649
    },
    {
      "epoch": 0.20489258661368434,
      "grad_norm": 0.25720515847206116,
      "learning_rate": 5e-05,
      "loss": 1.8847,
      "step": 1650
    },
    {
      "epoch": 0.20501676393890475,
      "grad_norm": 0.2847684323787689,
      "learning_rate": 5e-05,
      "loss": 2.3069,
      "step": 1651
    },
    {
      "epoch": 0.20514094126412516,
      "grad_norm": 0.25259941816329956,
      "learning_rate": 5e-05,
      "loss": 2.0781,
      "step": 1652
    },
    {
      "epoch": 0.2052651185893456,
      "grad_norm": 0.23993083834648132,
      "learning_rate": 5e-05,
      "loss": 1.7618,
      "step": 1653
    },
    {
      "epoch": 0.205389295914566,
      "grad_norm": 0.2299104630947113,
      "learning_rate": 5e-05,
      "loss": 1.8144,
      "step": 1654
    },
    {
      "epoch": 0.20551347323978642,
      "grad_norm": 0.255740225315094,
      "learning_rate": 5e-05,
      "loss": 2.101,
      "step": 1655
    },
    {
      "epoch": 0.20563765056500682,
      "grad_norm": 0.24104425311088562,
      "learning_rate": 5e-05,
      "loss": 1.7776,
      "step": 1656
    },
    {
      "epoch": 0.20576182789022723,
      "grad_norm": 0.3152559697628021,
      "learning_rate": 5e-05,
      "loss": 2.4188,
      "step": 1657
    },
    {
      "epoch": 0.20588600521544767,
      "grad_norm": 0.2445751428604126,
      "learning_rate": 5e-05,
      "loss": 2.1092,
      "step": 1658
    },
    {
      "epoch": 0.20601018254066808,
      "grad_norm": 0.25449883937835693,
      "learning_rate": 5e-05,
      "loss": 1.9749,
      "step": 1659
    },
    {
      "epoch": 0.2061343598658885,
      "grad_norm": 0.25314974784851074,
      "learning_rate": 5e-05,
      "loss": 2.0,
      "step": 1660
    },
    {
      "epoch": 0.2062585371911089,
      "grad_norm": 0.2331535667181015,
      "learning_rate": 5e-05,
      "loss": 1.7284,
      "step": 1661
    },
    {
      "epoch": 0.2063827145163293,
      "grad_norm": 0.2503470182418823,
      "learning_rate": 5e-05,
      "loss": 2.1081,
      "step": 1662
    },
    {
      "epoch": 0.20650689184154974,
      "grad_norm": 0.2514774799346924,
      "learning_rate": 5e-05,
      "loss": 1.9872,
      "step": 1663
    },
    {
      "epoch": 0.20663106916677015,
      "grad_norm": 0.442969411611557,
      "learning_rate": 5e-05,
      "loss": 2.6126,
      "step": 1664
    },
    {
      "epoch": 0.20675524649199056,
      "grad_norm": 0.4162762463092804,
      "learning_rate": 5e-05,
      "loss": 2.8093,
      "step": 1665
    },
    {
      "epoch": 0.20687942381721097,
      "grad_norm": 0.23191851377487183,
      "learning_rate": 5e-05,
      "loss": 1.69,
      "step": 1666
    },
    {
      "epoch": 0.20700360114243138,
      "grad_norm": 0.27533841133117676,
      "learning_rate": 5e-05,
      "loss": 2.5071,
      "step": 1667
    },
    {
      "epoch": 0.20712777846765182,
      "grad_norm": 0.23384816944599152,
      "learning_rate": 5e-05,
      "loss": 1.7697,
      "step": 1668
    },
    {
      "epoch": 0.20725195579287223,
      "grad_norm": 0.2592547535896301,
      "learning_rate": 5e-05,
      "loss": 1.9669,
      "step": 1669
    },
    {
      "epoch": 0.20737613311809264,
      "grad_norm": 0.222014382481575,
      "learning_rate": 5e-05,
      "loss": 1.6401,
      "step": 1670
    },
    {
      "epoch": 0.20750031044331305,
      "grad_norm": 0.2831239402294159,
      "learning_rate": 5e-05,
      "loss": 2.1964,
      "step": 1671
    },
    {
      "epoch": 0.20762448776853346,
      "grad_norm": 0.277029424905777,
      "learning_rate": 5e-05,
      "loss": 2.087,
      "step": 1672
    },
    {
      "epoch": 0.2077486650937539,
      "grad_norm": 0.39079350233078003,
      "learning_rate": 5e-05,
      "loss": 2.7042,
      "step": 1673
    },
    {
      "epoch": 0.2078728424189743,
      "grad_norm": 0.30425843596458435,
      "learning_rate": 5e-05,
      "loss": 2.11,
      "step": 1674
    },
    {
      "epoch": 0.2079970197441947,
      "grad_norm": 0.3006201386451721,
      "learning_rate": 5e-05,
      "loss": 2.0215,
      "step": 1675
    },
    {
      "epoch": 0.20812119706941512,
      "grad_norm": 0.3124234974384308,
      "learning_rate": 5e-05,
      "loss": 2.3347,
      "step": 1676
    },
    {
      "epoch": 0.20824537439463553,
      "grad_norm": 0.23930403590202332,
      "learning_rate": 5e-05,
      "loss": 1.8397,
      "step": 1677
    },
    {
      "epoch": 0.20836955171985597,
      "grad_norm": 0.31715354323387146,
      "learning_rate": 5e-05,
      "loss": 2.6101,
      "step": 1678
    },
    {
      "epoch": 0.20849372904507638,
      "grad_norm": 0.37763673067092896,
      "learning_rate": 5e-05,
      "loss": 2.2139,
      "step": 1679
    },
    {
      "epoch": 0.20861790637029679,
      "grad_norm": 0.2503034174442291,
      "learning_rate": 5e-05,
      "loss": 1.8083,
      "step": 1680
    },
    {
      "epoch": 0.2087420836955172,
      "grad_norm": 0.23396505415439606,
      "learning_rate": 5e-05,
      "loss": 1.865,
      "step": 1681
    },
    {
      "epoch": 0.2088662610207376,
      "grad_norm": 0.4701700806617737,
      "learning_rate": 5e-05,
      "loss": 3.0018,
      "step": 1682
    },
    {
      "epoch": 0.20899043834595804,
      "grad_norm": 0.2465221881866455,
      "learning_rate": 5e-05,
      "loss": 1.933,
      "step": 1683
    },
    {
      "epoch": 0.20911461567117845,
      "grad_norm": 0.2720159590244293,
      "learning_rate": 5e-05,
      "loss": 1.7912,
      "step": 1684
    },
    {
      "epoch": 0.20923879299639886,
      "grad_norm": 0.27453941106796265,
      "learning_rate": 5e-05,
      "loss": 2.0795,
      "step": 1685
    },
    {
      "epoch": 0.20936297032161927,
      "grad_norm": 0.2305481731891632,
      "learning_rate": 5e-05,
      "loss": 1.869,
      "step": 1686
    },
    {
      "epoch": 0.20948714764683968,
      "grad_norm": 0.4319351613521576,
      "learning_rate": 5e-05,
      "loss": 2.6607,
      "step": 1687
    },
    {
      "epoch": 0.20961132497206011,
      "grad_norm": 0.2448023408651352,
      "learning_rate": 5e-05,
      "loss": 1.873,
      "step": 1688
    },
    {
      "epoch": 0.20973550229728052,
      "grad_norm": 0.33915212750434875,
      "learning_rate": 5e-05,
      "loss": 2.6374,
      "step": 1689
    },
    {
      "epoch": 0.20985967962250093,
      "grad_norm": 0.2421485185623169,
      "learning_rate": 5e-05,
      "loss": 1.8568,
      "step": 1690
    },
    {
      "epoch": 0.20998385694772134,
      "grad_norm": 0.3487449884414673,
      "learning_rate": 5e-05,
      "loss": 2.9961,
      "step": 1691
    },
    {
      "epoch": 0.21010803427294175,
      "grad_norm": 0.25106364488601685,
      "learning_rate": 5e-05,
      "loss": 1.8972,
      "step": 1692
    },
    {
      "epoch": 0.2102322115981622,
      "grad_norm": 0.2260889858007431,
      "learning_rate": 5e-05,
      "loss": 1.7283,
      "step": 1693
    },
    {
      "epoch": 0.2103563889233826,
      "grad_norm": 0.250914603471756,
      "learning_rate": 5e-05,
      "loss": 2.1342,
      "step": 1694
    },
    {
      "epoch": 0.210480566248603,
      "grad_norm": 0.26212602853775024,
      "learning_rate": 5e-05,
      "loss": 2.2653,
      "step": 1695
    },
    {
      "epoch": 0.21060474357382342,
      "grad_norm": 0.32511529326438904,
      "learning_rate": 5e-05,
      "loss": 2.4195,
      "step": 1696
    },
    {
      "epoch": 0.21072892089904383,
      "grad_norm": 0.25976255536079407,
      "learning_rate": 5e-05,
      "loss": 1.9907,
      "step": 1697
    },
    {
      "epoch": 0.21085309822426426,
      "grad_norm": 0.26089444756507874,
      "learning_rate": 5e-05,
      "loss": 1.7081,
      "step": 1698
    },
    {
      "epoch": 0.21097727554948467,
      "grad_norm": 0.2486356496810913,
      "learning_rate": 5e-05,
      "loss": 1.8228,
      "step": 1699
    },
    {
      "epoch": 0.21110145287470508,
      "grad_norm": 0.2910366952419281,
      "learning_rate": 5e-05,
      "loss": 2.2744,
      "step": 1700
    },
    {
      "epoch": 0.2112256301999255,
      "grad_norm": 0.2450498342514038,
      "learning_rate": 5e-05,
      "loss": 1.9658,
      "step": 1701
    },
    {
      "epoch": 0.2113498075251459,
      "grad_norm": 0.2864016592502594,
      "learning_rate": 5e-05,
      "loss": 2.2889,
      "step": 1702
    },
    {
      "epoch": 0.21147398485036634,
      "grad_norm": 0.35383304953575134,
      "learning_rate": 5e-05,
      "loss": 3.0267,
      "step": 1703
    },
    {
      "epoch": 0.21159816217558675,
      "grad_norm": 0.3253929018974304,
      "learning_rate": 5e-05,
      "loss": 3.065,
      "step": 1704
    },
    {
      "epoch": 0.21172233950080716,
      "grad_norm": 0.3689143657684326,
      "learning_rate": 5e-05,
      "loss": 3.0832,
      "step": 1705
    },
    {
      "epoch": 0.21184651682602756,
      "grad_norm": 0.2674231231212616,
      "learning_rate": 5e-05,
      "loss": 1.9696,
      "step": 1706
    },
    {
      "epoch": 0.21197069415124797,
      "grad_norm": 0.2332857996225357,
      "learning_rate": 5e-05,
      "loss": 1.7146,
      "step": 1707
    },
    {
      "epoch": 0.2120948714764684,
      "grad_norm": 0.2352966070175171,
      "learning_rate": 5e-05,
      "loss": 1.7532,
      "step": 1708
    },
    {
      "epoch": 0.21221904880168882,
      "grad_norm": 0.24981732666492462,
      "learning_rate": 5e-05,
      "loss": 1.8056,
      "step": 1709
    },
    {
      "epoch": 0.21234322612690923,
      "grad_norm": 0.4079973101615906,
      "learning_rate": 5e-05,
      "loss": 2.4134,
      "step": 1710
    },
    {
      "epoch": 0.21246740345212964,
      "grad_norm": 0.24902944266796112,
      "learning_rate": 5e-05,
      "loss": 1.9135,
      "step": 1711
    },
    {
      "epoch": 0.21259158077735005,
      "grad_norm": 0.269527405500412,
      "learning_rate": 5e-05,
      "loss": 1.8756,
      "step": 1712
    },
    {
      "epoch": 0.21271575810257046,
      "grad_norm": 0.24911288917064667,
      "learning_rate": 5e-05,
      "loss": 1.8201,
      "step": 1713
    },
    {
      "epoch": 0.2128399354277909,
      "grad_norm": 0.2403162568807602,
      "learning_rate": 5e-05,
      "loss": 1.7368,
      "step": 1714
    },
    {
      "epoch": 0.2129641127530113,
      "grad_norm": 0.37792307138442993,
      "learning_rate": 5e-05,
      "loss": 2.6803,
      "step": 1715
    },
    {
      "epoch": 0.2130882900782317,
      "grad_norm": 0.24422739446163177,
      "learning_rate": 5e-05,
      "loss": 1.9826,
      "step": 1716
    },
    {
      "epoch": 0.21321246740345212,
      "grad_norm": 0.3007884919643402,
      "learning_rate": 5e-05,
      "loss": 2.3471,
      "step": 1717
    },
    {
      "epoch": 0.21333664472867253,
      "grad_norm": 0.3203009068965912,
      "learning_rate": 5e-05,
      "loss": 1.6646,
      "step": 1718
    },
    {
      "epoch": 0.21346082205389297,
      "grad_norm": 0.402255117893219,
      "learning_rate": 5e-05,
      "loss": 2.9297,
      "step": 1719
    },
    {
      "epoch": 0.21358499937911338,
      "grad_norm": 0.3000585436820984,
      "learning_rate": 5e-05,
      "loss": 2.0304,
      "step": 1720
    },
    {
      "epoch": 0.2137091767043338,
      "grad_norm": 0.24241819977760315,
      "learning_rate": 5e-05,
      "loss": 1.7784,
      "step": 1721
    },
    {
      "epoch": 0.2138333540295542,
      "grad_norm": 0.24447214603424072,
      "learning_rate": 5e-05,
      "loss": 1.917,
      "step": 1722
    },
    {
      "epoch": 0.2139575313547746,
      "grad_norm": 0.41224199533462524,
      "learning_rate": 5e-05,
      "loss": 2.283,
      "step": 1723
    },
    {
      "epoch": 0.21408170867999504,
      "grad_norm": 0.23594479262828827,
      "learning_rate": 5e-05,
      "loss": 1.8945,
      "step": 1724
    },
    {
      "epoch": 0.21420588600521545,
      "grad_norm": 0.2759271562099457,
      "learning_rate": 5e-05,
      "loss": 2.1209,
      "step": 1725
    },
    {
      "epoch": 0.21433006333043586,
      "grad_norm": 0.37910234928131104,
      "learning_rate": 5e-05,
      "loss": 2.4051,
      "step": 1726
    },
    {
      "epoch": 0.21445424065565627,
      "grad_norm": 0.239668607711792,
      "learning_rate": 5e-05,
      "loss": 1.8435,
      "step": 1727
    },
    {
      "epoch": 0.21457841798087668,
      "grad_norm": 0.3439406454563141,
      "learning_rate": 5e-05,
      "loss": 2.3448,
      "step": 1728
    },
    {
      "epoch": 0.21470259530609712,
      "grad_norm": 0.24044089019298553,
      "learning_rate": 5e-05,
      "loss": 1.8574,
      "step": 1729
    },
    {
      "epoch": 0.21482677263131753,
      "grad_norm": 0.3365280330181122,
      "learning_rate": 5e-05,
      "loss": 2.2237,
      "step": 1730
    },
    {
      "epoch": 0.21495094995653793,
      "grad_norm": 0.2748318016529083,
      "learning_rate": 5e-05,
      "loss": 1.876,
      "step": 1731
    },
    {
      "epoch": 0.21507512728175834,
      "grad_norm": 0.22987841069698334,
      "learning_rate": 5e-05,
      "loss": 1.6272,
      "step": 1732
    },
    {
      "epoch": 0.21519930460697875,
      "grad_norm": 0.27578434348106384,
      "learning_rate": 5e-05,
      "loss": 2.2288,
      "step": 1733
    },
    {
      "epoch": 0.2153234819321992,
      "grad_norm": 0.2659235894680023,
      "learning_rate": 5e-05,
      "loss": 2.1437,
      "step": 1734
    },
    {
      "epoch": 0.2154476592574196,
      "grad_norm": 0.23005495965480804,
      "learning_rate": 5e-05,
      "loss": 1.7046,
      "step": 1735
    },
    {
      "epoch": 0.21557183658264,
      "grad_norm": 0.24237008392810822,
      "learning_rate": 5e-05,
      "loss": 1.7442,
      "step": 1736
    },
    {
      "epoch": 0.21569601390786042,
      "grad_norm": 0.25887253880500793,
      "learning_rate": 5e-05,
      "loss": 1.8883,
      "step": 1737
    },
    {
      "epoch": 0.21582019123308083,
      "grad_norm": 0.24189727008342743,
      "learning_rate": 5e-05,
      "loss": 1.8856,
      "step": 1738
    },
    {
      "epoch": 0.21594436855830126,
      "grad_norm": 0.22908759117126465,
      "learning_rate": 5e-05,
      "loss": 1.992,
      "step": 1739
    },
    {
      "epoch": 0.21606854588352167,
      "grad_norm": 0.2191503942012787,
      "learning_rate": 5e-05,
      "loss": 1.7492,
      "step": 1740
    },
    {
      "epoch": 0.21619272320874208,
      "grad_norm": 0.2622680068016052,
      "learning_rate": 5e-05,
      "loss": 1.8653,
      "step": 1741
    },
    {
      "epoch": 0.2163169005339625,
      "grad_norm": 0.41318443417549133,
      "learning_rate": 5e-05,
      "loss": 2.3992,
      "step": 1742
    },
    {
      "epoch": 0.2164410778591829,
      "grad_norm": 0.2093416154384613,
      "learning_rate": 5e-05,
      "loss": 1.668,
      "step": 1743
    },
    {
      "epoch": 0.21656525518440334,
      "grad_norm": 0.2728491425514221,
      "learning_rate": 5e-05,
      "loss": 2.1623,
      "step": 1744
    },
    {
      "epoch": 0.21668943250962375,
      "grad_norm": 0.23795777559280396,
      "learning_rate": 5e-05,
      "loss": 1.9294,
      "step": 1745
    },
    {
      "epoch": 0.21681360983484416,
      "grad_norm": 0.2644427716732025,
      "learning_rate": 5e-05,
      "loss": 2.0939,
      "step": 1746
    },
    {
      "epoch": 0.21693778716006457,
      "grad_norm": 0.2713290750980377,
      "learning_rate": 5e-05,
      "loss": 1.8957,
      "step": 1747
    },
    {
      "epoch": 0.21706196448528498,
      "grad_norm": 0.33181139826774597,
      "learning_rate": 5e-05,
      "loss": 2.4719,
      "step": 1748
    },
    {
      "epoch": 0.2171861418105054,
      "grad_norm": 0.4779377281665802,
      "learning_rate": 5e-05,
      "loss": 3.0995,
      "step": 1749
    },
    {
      "epoch": 0.21731031913572582,
      "grad_norm": 0.23001569509506226,
      "learning_rate": 5e-05,
      "loss": 1.8776,
      "step": 1750
    },
    {
      "epoch": 0.21743449646094623,
      "grad_norm": 0.237697571516037,
      "learning_rate": 5e-05,
      "loss": 1.7986,
      "step": 1751
    },
    {
      "epoch": 0.21755867378616664,
      "grad_norm": 0.35161593556404114,
      "learning_rate": 5e-05,
      "loss": 2.0178,
      "step": 1752
    },
    {
      "epoch": 0.21768285111138705,
      "grad_norm": 0.33135032653808594,
      "learning_rate": 5e-05,
      "loss": 2.0187,
      "step": 1753
    },
    {
      "epoch": 0.21780702843660749,
      "grad_norm": 0.238532155752182,
      "learning_rate": 5e-05,
      "loss": 1.773,
      "step": 1754
    },
    {
      "epoch": 0.2179312057618279,
      "grad_norm": 0.259236216545105,
      "learning_rate": 5e-05,
      "loss": 1.9786,
      "step": 1755
    },
    {
      "epoch": 0.2180553830870483,
      "grad_norm": 0.7529013752937317,
      "learning_rate": 5e-05,
      "loss": 3.5159,
      "step": 1756
    },
    {
      "epoch": 0.2181795604122687,
      "grad_norm": 0.26810574531555176,
      "learning_rate": 5e-05,
      "loss": 1.7452,
      "step": 1757
    },
    {
      "epoch": 0.21830373773748912,
      "grad_norm": 0.29408180713653564,
      "learning_rate": 5e-05,
      "loss": 1.9413,
      "step": 1758
    },
    {
      "epoch": 0.21842791506270956,
      "grad_norm": 0.7544334530830383,
      "learning_rate": 5e-05,
      "loss": 2.8931,
      "step": 1759
    },
    {
      "epoch": 0.21855209238792997,
      "grad_norm": 0.2329382449388504,
      "learning_rate": 5e-05,
      "loss": 1.7157,
      "step": 1760
    },
    {
      "epoch": 0.21867626971315038,
      "grad_norm": 0.29731473326683044,
      "learning_rate": 5e-05,
      "loss": 2.4081,
      "step": 1761
    },
    {
      "epoch": 0.2188004470383708,
      "grad_norm": 0.28266817331314087,
      "learning_rate": 5e-05,
      "loss": 1.7907,
      "step": 1762
    },
    {
      "epoch": 0.2189246243635912,
      "grad_norm": 0.37541618943214417,
      "learning_rate": 5e-05,
      "loss": 2.9788,
      "step": 1763
    },
    {
      "epoch": 0.21904880168881163,
      "grad_norm": 0.36282044649124146,
      "learning_rate": 5e-05,
      "loss": 2.604,
      "step": 1764
    },
    {
      "epoch": 0.21917297901403204,
      "grad_norm": 0.3002357482910156,
      "learning_rate": 5e-05,
      "loss": 1.927,
      "step": 1765
    },
    {
      "epoch": 0.21929715633925245,
      "grad_norm": 0.3582640290260315,
      "learning_rate": 5e-05,
      "loss": 2.763,
      "step": 1766
    },
    {
      "epoch": 0.21942133366447286,
      "grad_norm": 0.27056246995925903,
      "learning_rate": 5e-05,
      "loss": 1.6919,
      "step": 1767
    },
    {
      "epoch": 0.21954551098969327,
      "grad_norm": 0.2792450487613678,
      "learning_rate": 5e-05,
      "loss": 1.8795,
      "step": 1768
    },
    {
      "epoch": 0.2196696883149137,
      "grad_norm": 0.31989672780036926,
      "learning_rate": 5e-05,
      "loss": 1.9076,
      "step": 1769
    },
    {
      "epoch": 0.21979386564013412,
      "grad_norm": 0.2750644087791443,
      "learning_rate": 5e-05,
      "loss": 1.9688,
      "step": 1770
    },
    {
      "epoch": 0.21991804296535453,
      "grad_norm": 0.2729717791080475,
      "learning_rate": 5e-05,
      "loss": 2.6162,
      "step": 1771
    },
    {
      "epoch": 0.22004222029057494,
      "grad_norm": 0.3536197543144226,
      "learning_rate": 5e-05,
      "loss": 2.5758,
      "step": 1772
    },
    {
      "epoch": 0.22016639761579535,
      "grad_norm": 0.2544414699077606,
      "learning_rate": 5e-05,
      "loss": 1.8532,
      "step": 1773
    },
    {
      "epoch": 0.22029057494101578,
      "grad_norm": 0.29141852259635925,
      "learning_rate": 5e-05,
      "loss": 1.8317,
      "step": 1774
    },
    {
      "epoch": 0.2204147522662362,
      "grad_norm": 0.3074047267436981,
      "learning_rate": 5e-05,
      "loss": 2.4807,
      "step": 1775
    },
    {
      "epoch": 0.2205389295914566,
      "grad_norm": 0.28151294589042664,
      "learning_rate": 5e-05,
      "loss": 1.777,
      "step": 1776
    },
    {
      "epoch": 0.220663106916677,
      "grad_norm": 0.38786178827285767,
      "learning_rate": 5e-05,
      "loss": 2.2301,
      "step": 1777
    },
    {
      "epoch": 0.22078728424189742,
      "grad_norm": 0.3930966556072235,
      "learning_rate": 5e-05,
      "loss": 2.2059,
      "step": 1778
    },
    {
      "epoch": 0.22091146156711786,
      "grad_norm": 0.40529048442840576,
      "learning_rate": 5e-05,
      "loss": 2.9492,
      "step": 1779
    },
    {
      "epoch": 0.22103563889233827,
      "grad_norm": 0.24425935745239258,
      "learning_rate": 5e-05,
      "loss": 1.8041,
      "step": 1780
    },
    {
      "epoch": 0.22115981621755867,
      "grad_norm": 0.24750569462776184,
      "learning_rate": 5e-05,
      "loss": 1.9951,
      "step": 1781
    },
    {
      "epoch": 0.22128399354277908,
      "grad_norm": 0.23385198414325714,
      "learning_rate": 5e-05,
      "loss": 1.7176,
      "step": 1782
    },
    {
      "epoch": 0.2214081708679995,
      "grad_norm": 0.2430528998374939,
      "learning_rate": 5e-05,
      "loss": 1.6822,
      "step": 1783
    },
    {
      "epoch": 0.22153234819321993,
      "grad_norm": 0.2879598140716553,
      "learning_rate": 5e-05,
      "loss": 2.1233,
      "step": 1784
    },
    {
      "epoch": 0.22165652551844034,
      "grad_norm": 0.2560439109802246,
      "learning_rate": 5e-05,
      "loss": 1.789,
      "step": 1785
    },
    {
      "epoch": 0.22178070284366075,
      "grad_norm": 0.22753004729747772,
      "learning_rate": 5e-05,
      "loss": 1.8389,
      "step": 1786
    },
    {
      "epoch": 0.22190488016888116,
      "grad_norm": 0.2329389899969101,
      "learning_rate": 5e-05,
      "loss": 1.8575,
      "step": 1787
    },
    {
      "epoch": 0.22202905749410157,
      "grad_norm": 0.3101327121257782,
      "learning_rate": 5e-05,
      "loss": 2.8564,
      "step": 1788
    },
    {
      "epoch": 0.222153234819322,
      "grad_norm": 0.28837624192237854,
      "learning_rate": 5e-05,
      "loss": 2.6174,
      "step": 1789
    },
    {
      "epoch": 0.2222774121445424,
      "grad_norm": 0.2643578350543976,
      "learning_rate": 5e-05,
      "loss": 1.8305,
      "step": 1790
    },
    {
      "epoch": 0.22240158946976282,
      "grad_norm": 0.23591133952140808,
      "learning_rate": 5e-05,
      "loss": 1.8651,
      "step": 1791
    },
    {
      "epoch": 0.22252576679498323,
      "grad_norm": 0.23883233964443207,
      "learning_rate": 5e-05,
      "loss": 1.8016,
      "step": 1792
    },
    {
      "epoch": 0.22264994412020364,
      "grad_norm": 0.25554805994033813,
      "learning_rate": 5e-05,
      "loss": 1.7941,
      "step": 1793
    },
    {
      "epoch": 0.22277412144542408,
      "grad_norm": 0.2344476580619812,
      "learning_rate": 5e-05,
      "loss": 1.8561,
      "step": 1794
    },
    {
      "epoch": 0.2228982987706445,
      "grad_norm": 0.2391137033700943,
      "learning_rate": 5e-05,
      "loss": 1.6769,
      "step": 1795
    },
    {
      "epoch": 0.2230224760958649,
      "grad_norm": 0.29635146260261536,
      "learning_rate": 5e-05,
      "loss": 2.2268,
      "step": 1796
    },
    {
      "epoch": 0.2231466534210853,
      "grad_norm": 0.25983938574790955,
      "learning_rate": 5e-05,
      "loss": 2.1469,
      "step": 1797
    },
    {
      "epoch": 0.22327083074630572,
      "grad_norm": 0.28056690096855164,
      "learning_rate": 5e-05,
      "loss": 2.4135,
      "step": 1798
    },
    {
      "epoch": 0.22339500807152615,
      "grad_norm": 0.22447097301483154,
      "learning_rate": 5e-05,
      "loss": 1.6283,
      "step": 1799
    },
    {
      "epoch": 0.22351918539674656,
      "grad_norm": 0.4292510449886322,
      "learning_rate": 5e-05,
      "loss": 3.0222,
      "step": 1800
    },
    {
      "epoch": 0.22364336272196697,
      "grad_norm": 0.27744293212890625,
      "learning_rate": 5e-05,
      "loss": 2.0844,
      "step": 1801
    },
    {
      "epoch": 0.22376754004718738,
      "grad_norm": 0.24944917857646942,
      "learning_rate": 5e-05,
      "loss": 2.1492,
      "step": 1802
    },
    {
      "epoch": 0.2238917173724078,
      "grad_norm": 0.2881680428981781,
      "learning_rate": 5e-05,
      "loss": 1.9108,
      "step": 1803
    },
    {
      "epoch": 0.22401589469762823,
      "grad_norm": 0.22899511456489563,
      "learning_rate": 5e-05,
      "loss": 1.8498,
      "step": 1804
    },
    {
      "epoch": 0.22414007202284864,
      "grad_norm": 0.2350693792104721,
      "learning_rate": 5e-05,
      "loss": 1.8751,
      "step": 1805
    },
    {
      "epoch": 0.22426424934806904,
      "grad_norm": 0.23344671726226807,
      "learning_rate": 5e-05,
      "loss": 1.8933,
      "step": 1806
    },
    {
      "epoch": 0.22438842667328945,
      "grad_norm": 0.2569604814052582,
      "learning_rate": 5e-05,
      "loss": 1.8855,
      "step": 1807
    },
    {
      "epoch": 0.22451260399850986,
      "grad_norm": 0.2852650284767151,
      "learning_rate": 5e-05,
      "loss": 2.2437,
      "step": 1808
    },
    {
      "epoch": 0.2246367813237303,
      "grad_norm": 0.27842971682548523,
      "learning_rate": 5e-05,
      "loss": 2.1467,
      "step": 1809
    },
    {
      "epoch": 0.2247609586489507,
      "grad_norm": 0.2501443028450012,
      "learning_rate": 5e-05,
      "loss": 1.8606,
      "step": 1810
    },
    {
      "epoch": 0.22488513597417112,
      "grad_norm": 0.23555615544319153,
      "learning_rate": 5e-05,
      "loss": 1.7129,
      "step": 1811
    },
    {
      "epoch": 0.22500931329939153,
      "grad_norm": 0.23604919016361237,
      "learning_rate": 5e-05,
      "loss": 1.9276,
      "step": 1812
    },
    {
      "epoch": 0.22513349062461194,
      "grad_norm": 0.266314834356308,
      "learning_rate": 5e-05,
      "loss": 2.0413,
      "step": 1813
    },
    {
      "epoch": 0.22525766794983237,
      "grad_norm": 0.23061490058898926,
      "learning_rate": 5e-05,
      "loss": 1.7077,
      "step": 1814
    },
    {
      "epoch": 0.22538184527505278,
      "grad_norm": 0.3107684552669525,
      "learning_rate": 5e-05,
      "loss": 2.4371,
      "step": 1815
    },
    {
      "epoch": 0.2255060226002732,
      "grad_norm": 0.2338070273399353,
      "learning_rate": 5e-05,
      "loss": 1.868,
      "step": 1816
    },
    {
      "epoch": 0.2256301999254936,
      "grad_norm": 0.22487351298332214,
      "learning_rate": 5e-05,
      "loss": 1.7228,
      "step": 1817
    },
    {
      "epoch": 0.225754377250714,
      "grad_norm": 0.22506463527679443,
      "learning_rate": 5e-05,
      "loss": 1.8726,
      "step": 1818
    },
    {
      "epoch": 0.22587855457593445,
      "grad_norm": 0.22189858555793762,
      "learning_rate": 5e-05,
      "loss": 1.8849,
      "step": 1819
    },
    {
      "epoch": 0.22600273190115486,
      "grad_norm": 0.35950690507888794,
      "learning_rate": 5e-05,
      "loss": 3.0113,
      "step": 1820
    },
    {
      "epoch": 0.22612690922637527,
      "grad_norm": 0.3117333650588989,
      "learning_rate": 5e-05,
      "loss": 2.5189,
      "step": 1821
    },
    {
      "epoch": 0.22625108655159568,
      "grad_norm": 0.2612452507019043,
      "learning_rate": 5e-05,
      "loss": 2.3857,
      "step": 1822
    },
    {
      "epoch": 0.22637526387681609,
      "grad_norm": 0.24799507856369019,
      "learning_rate": 5e-05,
      "loss": 1.8806,
      "step": 1823
    },
    {
      "epoch": 0.2264994412020365,
      "grad_norm": 0.23160864412784576,
      "learning_rate": 5e-05,
      "loss": 1.7434,
      "step": 1824
    },
    {
      "epoch": 0.22662361852725693,
      "grad_norm": 0.24015772342681885,
      "learning_rate": 5e-05,
      "loss": 1.6574,
      "step": 1825
    },
    {
      "epoch": 0.22674779585247734,
      "grad_norm": 0.3072112500667572,
      "learning_rate": 5e-05,
      "loss": 1.8564,
      "step": 1826
    },
    {
      "epoch": 0.22687197317769775,
      "grad_norm": 0.40338465571403503,
      "learning_rate": 5e-05,
      "loss": 2.382,
      "step": 1827
    },
    {
      "epoch": 0.22699615050291816,
      "grad_norm": 0.2783093750476837,
      "learning_rate": 5e-05,
      "loss": 2.0268,
      "step": 1828
    },
    {
      "epoch": 0.22712032782813857,
      "grad_norm": 0.23229126632213593,
      "learning_rate": 5e-05,
      "loss": 1.657,
      "step": 1829
    },
    {
      "epoch": 0.227244505153359,
      "grad_norm": 0.29547664523124695,
      "learning_rate": 5e-05,
      "loss": 2.0992,
      "step": 1830
    },
    {
      "epoch": 0.22736868247857941,
      "grad_norm": 0.3030807375907898,
      "learning_rate": 5e-05,
      "loss": 2.1506,
      "step": 1831
    },
    {
      "epoch": 0.22749285980379982,
      "grad_norm": 0.44966810941696167,
      "learning_rate": 5e-05,
      "loss": 2.7974,
      "step": 1832
    },
    {
      "epoch": 0.22761703712902023,
      "grad_norm": 0.24478162825107574,
      "learning_rate": 5e-05,
      "loss": 1.805,
      "step": 1833
    },
    {
      "epoch": 0.22774121445424064,
      "grad_norm": 0.25039052963256836,
      "learning_rate": 5e-05,
      "loss": 1.8524,
      "step": 1834
    },
    {
      "epoch": 0.22786539177946108,
      "grad_norm": 0.2906454801559448,
      "learning_rate": 5e-05,
      "loss": 2.3401,
      "step": 1835
    },
    {
      "epoch": 0.2279895691046815,
      "grad_norm": 0.2517564594745636,
      "learning_rate": 5e-05,
      "loss": 1.8607,
      "step": 1836
    },
    {
      "epoch": 0.2281137464299019,
      "grad_norm": 0.3775496482849121,
      "learning_rate": 5e-05,
      "loss": 2.5024,
      "step": 1837
    },
    {
      "epoch": 0.2282379237551223,
      "grad_norm": 0.49359723925590515,
      "learning_rate": 5e-05,
      "loss": 2.1549,
      "step": 1838
    },
    {
      "epoch": 0.22836210108034272,
      "grad_norm": 0.2934791147708893,
      "learning_rate": 5e-05,
      "loss": 1.9626,
      "step": 1839
    },
    {
      "epoch": 0.22848627840556315,
      "grad_norm": 0.34492501616477966,
      "learning_rate": 5e-05,
      "loss": 2.692,
      "step": 1840
    },
    {
      "epoch": 0.22861045573078356,
      "grad_norm": 0.23236510157585144,
      "learning_rate": 5e-05,
      "loss": 1.742,
      "step": 1841
    },
    {
      "epoch": 0.22873463305600397,
      "grad_norm": 0.25195273756980896,
      "learning_rate": 5e-05,
      "loss": 1.787,
      "step": 1842
    },
    {
      "epoch": 0.22885881038122438,
      "grad_norm": 0.23780708014965057,
      "learning_rate": 5e-05,
      "loss": 1.9003,
      "step": 1843
    },
    {
      "epoch": 0.2289829877064448,
      "grad_norm": 0.24621467292308807,
      "learning_rate": 5e-05,
      "loss": 1.9658,
      "step": 1844
    },
    {
      "epoch": 0.22910716503166523,
      "grad_norm": 0.22110295295715332,
      "learning_rate": 5e-05,
      "loss": 1.6332,
      "step": 1845
    },
    {
      "epoch": 0.22923134235688564,
      "grad_norm": 0.2576463520526886,
      "learning_rate": 5e-05,
      "loss": 1.8704,
      "step": 1846
    },
    {
      "epoch": 0.22935551968210605,
      "grad_norm": 0.29511019587516785,
      "learning_rate": 5e-05,
      "loss": 2.3014,
      "step": 1847
    },
    {
      "epoch": 0.22947969700732646,
      "grad_norm": 0.22384779155254364,
      "learning_rate": 5e-05,
      "loss": 1.7937,
      "step": 1848
    },
    {
      "epoch": 0.22960387433254686,
      "grad_norm": 0.23958070576190948,
      "learning_rate": 5e-05,
      "loss": 2.0166,
      "step": 1849
    },
    {
      "epoch": 0.2297280516577673,
      "grad_norm": 0.22880825400352478,
      "learning_rate": 5e-05,
      "loss": 1.8631,
      "step": 1850
    },
    {
      "epoch": 0.2298522289829877,
      "grad_norm": 0.23036791384220123,
      "learning_rate": 5e-05,
      "loss": 1.7562,
      "step": 1851
    },
    {
      "epoch": 0.22997640630820812,
      "grad_norm": 0.22369766235351562,
      "learning_rate": 5e-05,
      "loss": 1.8027,
      "step": 1852
    },
    {
      "epoch": 0.23010058363342853,
      "grad_norm": 0.21710707247257233,
      "learning_rate": 5e-05,
      "loss": 1.9178,
      "step": 1853
    },
    {
      "epoch": 0.23022476095864894,
      "grad_norm": 0.23242232203483582,
      "learning_rate": 5e-05,
      "loss": 1.8386,
      "step": 1854
    },
    {
      "epoch": 0.23034893828386938,
      "grad_norm": 0.25150173902511597,
      "learning_rate": 5e-05,
      "loss": 2.1614,
      "step": 1855
    },
    {
      "epoch": 0.23047311560908978,
      "grad_norm": 0.2314678281545639,
      "learning_rate": 5e-05,
      "loss": 1.6671,
      "step": 1856
    },
    {
      "epoch": 0.2305972929343102,
      "grad_norm": 0.24287739396095276,
      "learning_rate": 5e-05,
      "loss": 1.8269,
      "step": 1857
    },
    {
      "epoch": 0.2307214702595306,
      "grad_norm": 0.28835412859916687,
      "learning_rate": 5e-05,
      "loss": 2.0266,
      "step": 1858
    },
    {
      "epoch": 0.230845647584751,
      "grad_norm": 0.24327930808067322,
      "learning_rate": 5e-05,
      "loss": 1.9676,
      "step": 1859
    },
    {
      "epoch": 0.23096982490997145,
      "grad_norm": 0.22893552482128143,
      "learning_rate": 5e-05,
      "loss": 1.697,
      "step": 1860
    },
    {
      "epoch": 0.23109400223519186,
      "grad_norm": 0.2457294762134552,
      "learning_rate": 5e-05,
      "loss": 2.1678,
      "step": 1861
    },
    {
      "epoch": 0.23121817956041227,
      "grad_norm": 0.2598188519477844,
      "learning_rate": 5e-05,
      "loss": 2.1675,
      "step": 1862
    },
    {
      "epoch": 0.23134235688563268,
      "grad_norm": 0.25997206568717957,
      "learning_rate": 5e-05,
      "loss": 2.4369,
      "step": 1863
    },
    {
      "epoch": 0.2314665342108531,
      "grad_norm": 0.23384526371955872,
      "learning_rate": 5e-05,
      "loss": 1.9082,
      "step": 1864
    },
    {
      "epoch": 0.23159071153607352,
      "grad_norm": 0.2367602437734604,
      "learning_rate": 5e-05,
      "loss": 2.0341,
      "step": 1865
    },
    {
      "epoch": 0.23171488886129393,
      "grad_norm": 0.23032382130622864,
      "learning_rate": 5e-05,
      "loss": 1.8408,
      "step": 1866
    },
    {
      "epoch": 0.23183906618651434,
      "grad_norm": 0.24111077189445496,
      "learning_rate": 5e-05,
      "loss": 1.9525,
      "step": 1867
    },
    {
      "epoch": 0.23196324351173475,
      "grad_norm": 0.25044921040534973,
      "learning_rate": 5e-05,
      "loss": 1.9545,
      "step": 1868
    },
    {
      "epoch": 0.23208742083695516,
      "grad_norm": 0.24643723666667938,
      "learning_rate": 5e-05,
      "loss": 1.9355,
      "step": 1869
    },
    {
      "epoch": 0.2322115981621756,
      "grad_norm": 0.35006821155548096,
      "learning_rate": 5e-05,
      "loss": 2.2422,
      "step": 1870
    },
    {
      "epoch": 0.232335775487396,
      "grad_norm": 0.34157219529151917,
      "learning_rate": 5e-05,
      "loss": 2.5443,
      "step": 1871
    },
    {
      "epoch": 0.23245995281261642,
      "grad_norm": 0.24474504590034485,
      "learning_rate": 5e-05,
      "loss": 1.8225,
      "step": 1872
    },
    {
      "epoch": 0.23258413013783683,
      "grad_norm": 0.3194948434829712,
      "learning_rate": 5e-05,
      "loss": 2.1807,
      "step": 1873
    },
    {
      "epoch": 0.23270830746305723,
      "grad_norm": 0.22786596417427063,
      "learning_rate": 5e-05,
      "loss": 1.87,
      "step": 1874
    },
    {
      "epoch": 0.23283248478827767,
      "grad_norm": 0.28753167390823364,
      "learning_rate": 5e-05,
      "loss": 1.8951,
      "step": 1875
    },
    {
      "epoch": 0.23295666211349808,
      "grad_norm": 0.2794932723045349,
      "learning_rate": 5e-05,
      "loss": 1.7887,
      "step": 1876
    },
    {
      "epoch": 0.2330808394387185,
      "grad_norm": 0.23419396579265594,
      "learning_rate": 5e-05,
      "loss": 1.8828,
      "step": 1877
    },
    {
      "epoch": 0.2332050167639389,
      "grad_norm": 0.2391512244939804,
      "learning_rate": 5e-05,
      "loss": 1.7248,
      "step": 1878
    },
    {
      "epoch": 0.2333291940891593,
      "grad_norm": 0.22935175895690918,
      "learning_rate": 5e-05,
      "loss": 2.0159,
      "step": 1879
    },
    {
      "epoch": 0.23345337141437975,
      "grad_norm": 0.2907181680202484,
      "learning_rate": 5e-05,
      "loss": 2.6502,
      "step": 1880
    },
    {
      "epoch": 0.23357754873960015,
      "grad_norm": 0.22393736243247986,
      "learning_rate": 5e-05,
      "loss": 1.8167,
      "step": 1881
    },
    {
      "epoch": 0.23370172606482056,
      "grad_norm": 0.23955309391021729,
      "learning_rate": 5e-05,
      "loss": 1.8751,
      "step": 1882
    },
    {
      "epoch": 0.23382590339004097,
      "grad_norm": 0.29608166217803955,
      "learning_rate": 5e-05,
      "loss": 2.3452,
      "step": 1883
    },
    {
      "epoch": 0.23395008071526138,
      "grad_norm": 0.2643882632255554,
      "learning_rate": 5e-05,
      "loss": 1.9328,
      "step": 1884
    },
    {
      "epoch": 0.23407425804048182,
      "grad_norm": 0.3525054454803467,
      "learning_rate": 5e-05,
      "loss": 3.1187,
      "step": 1885
    },
    {
      "epoch": 0.23419843536570223,
      "grad_norm": 0.23440736532211304,
      "learning_rate": 5e-05,
      "loss": 1.9781,
      "step": 1886
    },
    {
      "epoch": 0.23432261269092264,
      "grad_norm": 0.2511214315891266,
      "learning_rate": 5e-05,
      "loss": 1.7289,
      "step": 1887
    },
    {
      "epoch": 0.23444679001614305,
      "grad_norm": 0.25337353348731995,
      "learning_rate": 5e-05,
      "loss": 1.7276,
      "step": 1888
    },
    {
      "epoch": 0.23457096734136346,
      "grad_norm": 0.3251419961452484,
      "learning_rate": 5e-05,
      "loss": 2.1247,
      "step": 1889
    },
    {
      "epoch": 0.2346951446665839,
      "grad_norm": 0.2831568717956543,
      "learning_rate": 5e-05,
      "loss": 1.8562,
      "step": 1890
    },
    {
      "epoch": 0.2348193219918043,
      "grad_norm": 0.34750649333000183,
      "learning_rate": 5e-05,
      "loss": 2.4733,
      "step": 1891
    },
    {
      "epoch": 0.2349434993170247,
      "grad_norm": 0.277805894613266,
      "learning_rate": 5e-05,
      "loss": 2.0188,
      "step": 1892
    },
    {
      "epoch": 0.23506767664224512,
      "grad_norm": 0.36019158363342285,
      "learning_rate": 5e-05,
      "loss": 2.6607,
      "step": 1893
    },
    {
      "epoch": 0.23519185396746553,
      "grad_norm": 0.2482622265815735,
      "learning_rate": 5e-05,
      "loss": 1.8025,
      "step": 1894
    },
    {
      "epoch": 0.23531603129268597,
      "grad_norm": 0.3870713412761688,
      "learning_rate": 5e-05,
      "loss": 2.5754,
      "step": 1895
    },
    {
      "epoch": 0.23544020861790638,
      "grad_norm": 0.4541047513484955,
      "learning_rate": 5e-05,
      "loss": 2.4462,
      "step": 1896
    },
    {
      "epoch": 0.2355643859431268,
      "grad_norm": 0.2338835746049881,
      "learning_rate": 5e-05,
      "loss": 1.9402,
      "step": 1897
    },
    {
      "epoch": 0.2356885632683472,
      "grad_norm": 0.32460445165634155,
      "learning_rate": 5e-05,
      "loss": 2.6475,
      "step": 1898
    },
    {
      "epoch": 0.2358127405935676,
      "grad_norm": 0.26159971952438354,
      "learning_rate": 5e-05,
      "loss": 2.274,
      "step": 1899
    },
    {
      "epoch": 0.23593691791878804,
      "grad_norm": 0.3683694899082184,
      "learning_rate": 5e-05,
      "loss": 2.4997,
      "step": 1900
    },
    {
      "epoch": 0.23606109524400845,
      "grad_norm": 0.257699191570282,
      "learning_rate": 5e-05,
      "loss": 1.7806,
      "step": 1901
    },
    {
      "epoch": 0.23618527256922886,
      "grad_norm": 0.24818864464759827,
      "learning_rate": 5e-05,
      "loss": 1.7533,
      "step": 1902
    },
    {
      "epoch": 0.23630944989444927,
      "grad_norm": 0.257609486579895,
      "learning_rate": 5e-05,
      "loss": 1.8761,
      "step": 1903
    },
    {
      "epoch": 0.23643362721966968,
      "grad_norm": 0.2353687584400177,
      "learning_rate": 5e-05,
      "loss": 1.683,
      "step": 1904
    },
    {
      "epoch": 0.23655780454489012,
      "grad_norm": 0.286986768245697,
      "learning_rate": 5e-05,
      "loss": 1.9561,
      "step": 1905
    },
    {
      "epoch": 0.23668198187011052,
      "grad_norm": 0.31905364990234375,
      "learning_rate": 5e-05,
      "loss": 2.3166,
      "step": 1906
    },
    {
      "epoch": 0.23680615919533093,
      "grad_norm": 0.2782406806945801,
      "learning_rate": 5e-05,
      "loss": 1.9338,
      "step": 1907
    },
    {
      "epoch": 0.23693033652055134,
      "grad_norm": 0.2489187866449356,
      "learning_rate": 5e-05,
      "loss": 1.997,
      "step": 1908
    },
    {
      "epoch": 0.23705451384577175,
      "grad_norm": 0.26325809955596924,
      "learning_rate": 5e-05,
      "loss": 2.0334,
      "step": 1909
    },
    {
      "epoch": 0.2371786911709922,
      "grad_norm": 0.25017687678337097,
      "learning_rate": 5e-05,
      "loss": 2.1734,
      "step": 1910
    },
    {
      "epoch": 0.2373028684962126,
      "grad_norm": 0.23639056086540222,
      "learning_rate": 5e-05,
      "loss": 1.7767,
      "step": 1911
    },
    {
      "epoch": 0.237427045821433,
      "grad_norm": 0.3084493577480316,
      "learning_rate": 5e-05,
      "loss": 2.5107,
      "step": 1912
    },
    {
      "epoch": 0.23755122314665342,
      "grad_norm": 0.5163066983222961,
      "learning_rate": 5e-05,
      "loss": 3.047,
      "step": 1913
    },
    {
      "epoch": 0.23767540047187383,
      "grad_norm": 0.23216481506824493,
      "learning_rate": 5e-05,
      "loss": 1.8174,
      "step": 1914
    },
    {
      "epoch": 0.23779957779709426,
      "grad_norm": 0.31820985674858093,
      "learning_rate": 5e-05,
      "loss": 2.2972,
      "step": 1915
    },
    {
      "epoch": 0.23792375512231467,
      "grad_norm": 0.33713197708129883,
      "learning_rate": 5e-05,
      "loss": 1.9433,
      "step": 1916
    },
    {
      "epoch": 0.23804793244753508,
      "grad_norm": 0.2533275783061981,
      "learning_rate": 5e-05,
      "loss": 1.7807,
      "step": 1917
    },
    {
      "epoch": 0.2381721097727555,
      "grad_norm": 0.3215118944644928,
      "learning_rate": 5e-05,
      "loss": 2.7627,
      "step": 1918
    },
    {
      "epoch": 0.2382962870979759,
      "grad_norm": 0.24559693038463593,
      "learning_rate": 5e-05,
      "loss": 1.7629,
      "step": 1919
    },
    {
      "epoch": 0.23842046442319634,
      "grad_norm": 0.40229567885398865,
      "learning_rate": 5e-05,
      "loss": 3.0825,
      "step": 1920
    },
    {
      "epoch": 0.23854464174841675,
      "grad_norm": 0.262498140335083,
      "learning_rate": 5e-05,
      "loss": 1.8635,
      "step": 1921
    },
    {
      "epoch": 0.23866881907363716,
      "grad_norm": 0.2896023988723755,
      "learning_rate": 5e-05,
      "loss": 2.0284,
      "step": 1922
    },
    {
      "epoch": 0.23879299639885757,
      "grad_norm": 0.3890548348426819,
      "learning_rate": 5e-05,
      "loss": 2.4002,
      "step": 1923
    },
    {
      "epoch": 0.23891717372407797,
      "grad_norm": 0.2438245713710785,
      "learning_rate": 5e-05,
      "loss": 1.8078,
      "step": 1924
    },
    {
      "epoch": 0.2390413510492984,
      "grad_norm": 0.23711682856082916,
      "learning_rate": 5e-05,
      "loss": 1.7585,
      "step": 1925
    },
    {
      "epoch": 0.23916552837451882,
      "grad_norm": 0.2526569366455078,
      "learning_rate": 5e-05,
      "loss": 1.8272,
      "step": 1926
    },
    {
      "epoch": 0.23928970569973923,
      "grad_norm": 0.24494430422782898,
      "learning_rate": 5e-05,
      "loss": 1.5542,
      "step": 1927
    },
    {
      "epoch": 0.23941388302495964,
      "grad_norm": 0.3084580898284912,
      "learning_rate": 5e-05,
      "loss": 2.2646,
      "step": 1928
    },
    {
      "epoch": 0.23953806035018005,
      "grad_norm": 0.269167959690094,
      "learning_rate": 5e-05,
      "loss": 1.8957,
      "step": 1929
    },
    {
      "epoch": 0.23966223767540049,
      "grad_norm": 0.31668105721473694,
      "learning_rate": 5e-05,
      "loss": 1.7582,
      "step": 1930
    },
    {
      "epoch": 0.2397864150006209,
      "grad_norm": 0.30181264877319336,
      "learning_rate": 5e-05,
      "loss": 2.2467,
      "step": 1931
    },
    {
      "epoch": 0.2399105923258413,
      "grad_norm": 0.36058130860328674,
      "learning_rate": 5e-05,
      "loss": 1.7317,
      "step": 1932
    },
    {
      "epoch": 0.2400347696510617,
      "grad_norm": 0.31209760904312134,
      "learning_rate": 5e-05,
      "loss": 2.2926,
      "step": 1933
    },
    {
      "epoch": 0.24015894697628212,
      "grad_norm": 0.21819227933883667,
      "learning_rate": 5e-05,
      "loss": 1.5999,
      "step": 1934
    },
    {
      "epoch": 0.24028312430150253,
      "grad_norm": 0.2392604500055313,
      "learning_rate": 5e-05,
      "loss": 1.8408,
      "step": 1935
    },
    {
      "epoch": 0.24040730162672297,
      "grad_norm": 0.24267391860485077,
      "learning_rate": 5e-05,
      "loss": 1.642,
      "step": 1936
    },
    {
      "epoch": 0.24053147895194338,
      "grad_norm": 0.24436531960964203,
      "learning_rate": 5e-05,
      "loss": 1.8484,
      "step": 1937
    },
    {
      "epoch": 0.2406556562771638,
      "grad_norm": 0.4588351845741272,
      "learning_rate": 5e-05,
      "loss": 2.8791,
      "step": 1938
    },
    {
      "epoch": 0.2407798336023842,
      "grad_norm": 0.2764546871185303,
      "learning_rate": 5e-05,
      "loss": 2.0667,
      "step": 1939
    },
    {
      "epoch": 0.2409040109276046,
      "grad_norm": 0.2699776887893677,
      "learning_rate": 5e-05,
      "loss": 2.1373,
      "step": 1940
    },
    {
      "epoch": 0.24102818825282504,
      "grad_norm": 0.2740055322647095,
      "learning_rate": 5e-05,
      "loss": 1.812,
      "step": 1941
    },
    {
      "epoch": 0.24115236557804545,
      "grad_norm": 0.31641992926597595,
      "learning_rate": 5e-05,
      "loss": 2.29,
      "step": 1942
    },
    {
      "epoch": 0.24127654290326586,
      "grad_norm": 0.24028736352920532,
      "learning_rate": 5e-05,
      "loss": 1.7542,
      "step": 1943
    },
    {
      "epoch": 0.24140072022848627,
      "grad_norm": 0.23450621962547302,
      "learning_rate": 5e-05,
      "loss": 1.7702,
      "step": 1944
    },
    {
      "epoch": 0.24152489755370668,
      "grad_norm": 0.26582643389701843,
      "learning_rate": 5e-05,
      "loss": 1.9003,
      "step": 1945
    },
    {
      "epoch": 0.24164907487892712,
      "grad_norm": 0.24697017669677734,
      "learning_rate": 5e-05,
      "loss": 1.859,
      "step": 1946
    },
    {
      "epoch": 0.24177325220414753,
      "grad_norm": 0.2788417637348175,
      "learning_rate": 5e-05,
      "loss": 1.9654,
      "step": 1947
    },
    {
      "epoch": 0.24189742952936794,
      "grad_norm": 0.2509775757789612,
      "learning_rate": 5e-05,
      "loss": 1.941,
      "step": 1948
    },
    {
      "epoch": 0.24202160685458834,
      "grad_norm": 0.2366712987422943,
      "learning_rate": 5e-05,
      "loss": 1.8971,
      "step": 1949
    },
    {
      "epoch": 0.24214578417980875,
      "grad_norm": 0.28300464153289795,
      "learning_rate": 5e-05,
      "loss": 1.9168,
      "step": 1950
    },
    {
      "epoch": 0.2422699615050292,
      "grad_norm": 0.374286025762558,
      "learning_rate": 5e-05,
      "loss": 2.3375,
      "step": 1951
    },
    {
      "epoch": 0.2423941388302496,
      "grad_norm": 0.27787190675735474,
      "learning_rate": 5e-05,
      "loss": 2.2976,
      "step": 1952
    },
    {
      "epoch": 0.24251831615547,
      "grad_norm": 0.2881941795349121,
      "learning_rate": 5e-05,
      "loss": 1.9152,
      "step": 1953
    },
    {
      "epoch": 0.24264249348069042,
      "grad_norm": 0.25375548005104065,
      "learning_rate": 5e-05,
      "loss": 2.069,
      "step": 1954
    },
    {
      "epoch": 0.24276667080591083,
      "grad_norm": 0.2413804978132248,
      "learning_rate": 5e-05,
      "loss": 1.8972,
      "step": 1955
    },
    {
      "epoch": 0.24289084813113127,
      "grad_norm": 0.2694176137447357,
      "learning_rate": 5e-05,
      "loss": 2.207,
      "step": 1956
    },
    {
      "epoch": 0.24301502545635167,
      "grad_norm": 0.28330808877944946,
      "learning_rate": 5e-05,
      "loss": 2.2635,
      "step": 1957
    },
    {
      "epoch": 0.24313920278157208,
      "grad_norm": 0.23573309183120728,
      "learning_rate": 5e-05,
      "loss": 1.9244,
      "step": 1958
    },
    {
      "epoch": 0.2432633801067925,
      "grad_norm": 0.22043515741825104,
      "learning_rate": 5e-05,
      "loss": 1.6197,
      "step": 1959
    },
    {
      "epoch": 0.2433875574320129,
      "grad_norm": 0.2412165403366089,
      "learning_rate": 5e-05,
      "loss": 1.9004,
      "step": 1960
    },
    {
      "epoch": 0.24351173475723334,
      "grad_norm": 0.22970552742481232,
      "learning_rate": 5e-05,
      "loss": 1.8262,
      "step": 1961
    },
    {
      "epoch": 0.24363591208245375,
      "grad_norm": 0.316812127828598,
      "learning_rate": 5e-05,
      "loss": 2.3856,
      "step": 1962
    },
    {
      "epoch": 0.24376008940767416,
      "grad_norm": 0.3819718360900879,
      "learning_rate": 5e-05,
      "loss": 2.6623,
      "step": 1963
    },
    {
      "epoch": 0.24388426673289457,
      "grad_norm": 0.2724602222442627,
      "learning_rate": 5e-05,
      "loss": 2.1579,
      "step": 1964
    },
    {
      "epoch": 0.24400844405811498,
      "grad_norm": 0.2912684381008148,
      "learning_rate": 5e-05,
      "loss": 2.0478,
      "step": 1965
    },
    {
      "epoch": 0.2441326213833354,
      "grad_norm": 0.3085207939147949,
      "learning_rate": 5e-05,
      "loss": 2.2613,
      "step": 1966
    },
    {
      "epoch": 0.24425679870855582,
      "grad_norm": 0.27749061584472656,
      "learning_rate": 5e-05,
      "loss": 2.8292,
      "step": 1967
    },
    {
      "epoch": 0.24438097603377623,
      "grad_norm": 0.27682381868362427,
      "learning_rate": 5e-05,
      "loss": 1.9787,
      "step": 1968
    },
    {
      "epoch": 0.24450515335899664,
      "grad_norm": 0.23448756337165833,
      "learning_rate": 5e-05,
      "loss": 1.8452,
      "step": 1969
    },
    {
      "epoch": 0.24462933068421705,
      "grad_norm": 0.36228427290916443,
      "learning_rate": 5e-05,
      "loss": 2.1993,
      "step": 1970
    },
    {
      "epoch": 0.2447535080094375,
      "grad_norm": 0.2361755222082138,
      "learning_rate": 5e-05,
      "loss": 1.6303,
      "step": 1971
    },
    {
      "epoch": 0.2448776853346579,
      "grad_norm": 0.24990299344062805,
      "learning_rate": 5e-05,
      "loss": 1.9902,
      "step": 1972
    },
    {
      "epoch": 0.2450018626598783,
      "grad_norm": 0.2876966595649719,
      "learning_rate": 5e-05,
      "loss": 2.3467,
      "step": 1973
    },
    {
      "epoch": 0.24512603998509871,
      "grad_norm": 0.2440340369939804,
      "learning_rate": 5e-05,
      "loss": 2.0496,
      "step": 1974
    },
    {
      "epoch": 0.24525021731031912,
      "grad_norm": 0.2509459853172302,
      "learning_rate": 5e-05,
      "loss": 1.7841,
      "step": 1975
    },
    {
      "epoch": 0.24537439463553956,
      "grad_norm": 0.24116043746471405,
      "learning_rate": 5e-05,
      "loss": 1.7636,
      "step": 1976
    },
    {
      "epoch": 0.24549857196075997,
      "grad_norm": 0.3570502698421478,
      "learning_rate": 5e-05,
      "loss": 2.6231,
      "step": 1977
    },
    {
      "epoch": 0.24562274928598038,
      "grad_norm": 0.4303056597709656,
      "learning_rate": 5e-05,
      "loss": 3.7122,
      "step": 1978
    },
    {
      "epoch": 0.2457469266112008,
      "grad_norm": 0.289449542760849,
      "learning_rate": 5e-05,
      "loss": 2.1098,
      "step": 1979
    },
    {
      "epoch": 0.2458711039364212,
      "grad_norm": 0.277208149433136,
      "learning_rate": 5e-05,
      "loss": 2.1407,
      "step": 1980
    },
    {
      "epoch": 0.24599528126164164,
      "grad_norm": 0.31902116537094116,
      "learning_rate": 5e-05,
      "loss": 2.1891,
      "step": 1981
    },
    {
      "epoch": 0.24611945858686204,
      "grad_norm": 0.2405809611082077,
      "learning_rate": 5e-05,
      "loss": 1.6028,
      "step": 1982
    },
    {
      "epoch": 0.24624363591208245,
      "grad_norm": 0.34350183606147766,
      "learning_rate": 5e-05,
      "loss": 2.2372,
      "step": 1983
    },
    {
      "epoch": 0.24636781323730286,
      "grad_norm": 0.25604358315467834,
      "learning_rate": 5e-05,
      "loss": 1.9088,
      "step": 1984
    },
    {
      "epoch": 0.24649199056252327,
      "grad_norm": 0.2582472860813141,
      "learning_rate": 5e-05,
      "loss": 1.9506,
      "step": 1985
    },
    {
      "epoch": 0.2466161678877437,
      "grad_norm": 0.42406120896339417,
      "learning_rate": 5e-05,
      "loss": 2.293,
      "step": 1986
    },
    {
      "epoch": 0.24674034521296412,
      "grad_norm": 0.3463503122329712,
      "learning_rate": 5e-05,
      "loss": 2.605,
      "step": 1987
    },
    {
      "epoch": 0.24686452253818453,
      "grad_norm": 0.31971120834350586,
      "learning_rate": 5e-05,
      "loss": 2.3052,
      "step": 1988
    },
    {
      "epoch": 0.24698869986340494,
      "grad_norm": 0.34543928503990173,
      "learning_rate": 5e-05,
      "loss": 2.2367,
      "step": 1989
    },
    {
      "epoch": 0.24711287718862535,
      "grad_norm": 0.2506909668445587,
      "learning_rate": 5e-05,
      "loss": 1.8307,
      "step": 1990
    },
    {
      "epoch": 0.24723705451384578,
      "grad_norm": 0.2659740149974823,
      "learning_rate": 5e-05,
      "loss": 2.0522,
      "step": 1991
    },
    {
      "epoch": 0.2473612318390662,
      "grad_norm": 0.22190289199352264,
      "learning_rate": 5e-05,
      "loss": 1.653,
      "step": 1992
    },
    {
      "epoch": 0.2474854091642866,
      "grad_norm": 0.24099688231945038,
      "learning_rate": 5e-05,
      "loss": 1.9008,
      "step": 1993
    },
    {
      "epoch": 0.247609586489507,
      "grad_norm": 0.26779383420944214,
      "learning_rate": 5e-05,
      "loss": 2.0616,
      "step": 1994
    },
    {
      "epoch": 0.24773376381472742,
      "grad_norm": 0.2511522173881531,
      "learning_rate": 5e-05,
      "loss": 1.9541,
      "step": 1995
    },
    {
      "epoch": 0.24785794113994786,
      "grad_norm": 0.4537486433982849,
      "learning_rate": 5e-05,
      "loss": 2.7368,
      "step": 1996
    },
    {
      "epoch": 0.24798211846516827,
      "grad_norm": 0.2445574849843979,
      "learning_rate": 5e-05,
      "loss": 1.7308,
      "step": 1997
    },
    {
      "epoch": 0.24810629579038868,
      "grad_norm": 0.2323279082775116,
      "learning_rate": 5e-05,
      "loss": 1.9362,
      "step": 1998
    },
    {
      "epoch": 0.24823047311560908,
      "grad_norm": 0.24628306925296783,
      "learning_rate": 5e-05,
      "loss": 2.1236,
      "step": 1999
    },
    {
      "epoch": 0.2483546504408295,
      "grad_norm": 0.27042755484580994,
      "learning_rate": 5e-05,
      "loss": 2.166,
      "step": 2000
    },
    {
      "epoch": 0.24847882776604993,
      "grad_norm": 0.27119892835617065,
      "learning_rate": 5e-05,
      "loss": 2.0992,
      "step": 2001
    },
    {
      "epoch": 0.24860300509127034,
      "grad_norm": 0.2787729799747467,
      "learning_rate": 5e-05,
      "loss": 2.1958,
      "step": 2002
    },
    {
      "epoch": 0.24872718241649075,
      "grad_norm": 0.24131381511688232,
      "learning_rate": 5e-05,
      "loss": 1.9194,
      "step": 2003
    },
    {
      "epoch": 0.24885135974171116,
      "grad_norm": 0.2580811083316803,
      "learning_rate": 5e-05,
      "loss": 2.0621,
      "step": 2004
    },
    {
      "epoch": 0.24897553706693157,
      "grad_norm": 0.2595440745353699,
      "learning_rate": 5e-05,
      "loss": 2.125,
      "step": 2005
    },
    {
      "epoch": 0.249099714392152,
      "grad_norm": 0.2212187796831131,
      "learning_rate": 5e-05,
      "loss": 1.7434,
      "step": 2006
    },
    {
      "epoch": 0.24922389171737241,
      "grad_norm": 0.25188785791397095,
      "learning_rate": 5e-05,
      "loss": 1.5035,
      "step": 2007
    },
    {
      "epoch": 0.24934806904259282,
      "grad_norm": 0.40886369347572327,
      "learning_rate": 5e-05,
      "loss": 2.681,
      "step": 2008
    },
    {
      "epoch": 0.24947224636781323,
      "grad_norm": 0.25674906373023987,
      "learning_rate": 5e-05,
      "loss": 1.9956,
      "step": 2009
    },
    {
      "epoch": 0.24959642369303364,
      "grad_norm": 0.22841785848140717,
      "learning_rate": 5e-05,
      "loss": 1.7359,
      "step": 2010
    },
    {
      "epoch": 0.24972060101825408,
      "grad_norm": 0.22568254172801971,
      "learning_rate": 5e-05,
      "loss": 1.7335,
      "step": 2011
    },
    {
      "epoch": 0.2498447783434745,
      "grad_norm": 0.3849019408226013,
      "learning_rate": 5e-05,
      "loss": 2.8411,
      "step": 2012
    },
    {
      "epoch": 0.2499689556686949,
      "grad_norm": 0.3539924919605255,
      "learning_rate": 5e-05,
      "loss": 1.9334,
      "step": 2013
    },
    {
      "epoch": 0.25009313299391533,
      "grad_norm": 0.31630808115005493,
      "learning_rate": 5e-05,
      "loss": 2.3065,
      "step": 2014
    },
    {
      "epoch": 0.25021731031913574,
      "grad_norm": 0.23726125061511993,
      "learning_rate": 5e-05,
      "loss": 1.6161,
      "step": 2015
    },
    {
      "epoch": 0.25034148764435615,
      "grad_norm": 0.24230054020881653,
      "learning_rate": 5e-05,
      "loss": 1.5639,
      "step": 2016
    },
    {
      "epoch": 0.25046566496957656,
      "grad_norm": 0.24119439721107483,
      "learning_rate": 5e-05,
      "loss": 1.7292,
      "step": 2017
    },
    {
      "epoch": 0.25058984229479697,
      "grad_norm": 0.31925609707832336,
      "learning_rate": 5e-05,
      "loss": 2.2247,
      "step": 2018
    },
    {
      "epoch": 0.2507140196200174,
      "grad_norm": 0.2717881202697754,
      "learning_rate": 5e-05,
      "loss": 2.1405,
      "step": 2019
    },
    {
      "epoch": 0.2508381969452378,
      "grad_norm": 0.23317092657089233,
      "learning_rate": 5e-05,
      "loss": 1.8834,
      "step": 2020
    },
    {
      "epoch": 0.2509623742704582,
      "grad_norm": 0.2441297322511673,
      "learning_rate": 5e-05,
      "loss": 2.0862,
      "step": 2021
    },
    {
      "epoch": 0.2510865515956786,
      "grad_norm": 0.23900364339351654,
      "learning_rate": 5e-05,
      "loss": 1.8199,
      "step": 2022
    },
    {
      "epoch": 0.251210728920899,
      "grad_norm": 0.2367074191570282,
      "learning_rate": 5e-05,
      "loss": 1.9068,
      "step": 2023
    },
    {
      "epoch": 0.2513349062461195,
      "grad_norm": 0.24488438665866852,
      "learning_rate": 5e-05,
      "loss": 1.926,
      "step": 2024
    },
    {
      "epoch": 0.2514590835713399,
      "grad_norm": 0.22677388787269592,
      "learning_rate": 5e-05,
      "loss": 1.7542,
      "step": 2025
    },
    {
      "epoch": 0.2515832608965603,
      "grad_norm": 0.5012796521186829,
      "learning_rate": 5e-05,
      "loss": 3.3974,
      "step": 2026
    },
    {
      "epoch": 0.2517074382217807,
      "grad_norm": 0.2840482294559479,
      "learning_rate": 5e-05,
      "loss": 2.5031,
      "step": 2027
    },
    {
      "epoch": 0.2518316155470011,
      "grad_norm": 0.25313377380371094,
      "learning_rate": 5e-05,
      "loss": 1.9694,
      "step": 2028
    },
    {
      "epoch": 0.25195579287222153,
      "grad_norm": 0.28684139251708984,
      "learning_rate": 5e-05,
      "loss": 1.8056,
      "step": 2029
    },
    {
      "epoch": 0.25207997019744194,
      "grad_norm": 0.33107808232307434,
      "learning_rate": 5e-05,
      "loss": 2.1542,
      "step": 2030
    },
    {
      "epoch": 0.25220414752266235,
      "grad_norm": 0.2357482761144638,
      "learning_rate": 5e-05,
      "loss": 1.7588,
      "step": 2031
    },
    {
      "epoch": 0.25232832484788276,
      "grad_norm": 0.2528238892555237,
      "learning_rate": 5e-05,
      "loss": 2.1084,
      "step": 2032
    },
    {
      "epoch": 0.25245250217310317,
      "grad_norm": 0.4784279763698578,
      "learning_rate": 5e-05,
      "loss": 2.6304,
      "step": 2033
    },
    {
      "epoch": 0.25257667949832363,
      "grad_norm": 0.2978458106517792,
      "learning_rate": 5e-05,
      "loss": 2.3928,
      "step": 2034
    },
    {
      "epoch": 0.25270085682354404,
      "grad_norm": 0.3612816333770752,
      "learning_rate": 5e-05,
      "loss": 2.7444,
      "step": 2035
    },
    {
      "epoch": 0.25282503414876445,
      "grad_norm": 0.2545587420463562,
      "learning_rate": 5e-05,
      "loss": 1.9201,
      "step": 2036
    },
    {
      "epoch": 0.25294921147398486,
      "grad_norm": 0.306565523147583,
      "learning_rate": 5e-05,
      "loss": 2.3076,
      "step": 2037
    },
    {
      "epoch": 0.25307338879920527,
      "grad_norm": 0.2631712555885315,
      "learning_rate": 5e-05,
      "loss": 1.6876,
      "step": 2038
    },
    {
      "epoch": 0.2531975661244257,
      "grad_norm": 0.2829129695892334,
      "learning_rate": 5e-05,
      "loss": 2.2984,
      "step": 2039
    },
    {
      "epoch": 0.2533217434496461,
      "grad_norm": 0.240200012922287,
      "learning_rate": 5e-05,
      "loss": 1.6346,
      "step": 2040
    },
    {
      "epoch": 0.2534459207748665,
      "grad_norm": 0.25522780418395996,
      "learning_rate": 5e-05,
      "loss": 1.794,
      "step": 2041
    },
    {
      "epoch": 0.2535700981000869,
      "grad_norm": 0.24453885853290558,
      "learning_rate": 5e-05,
      "loss": 1.8446,
      "step": 2042
    },
    {
      "epoch": 0.2536942754253073,
      "grad_norm": 0.24798159301280975,
      "learning_rate": 5e-05,
      "loss": 1.9012,
      "step": 2043
    },
    {
      "epoch": 0.2538184527505278,
      "grad_norm": 0.24530170857906342,
      "learning_rate": 5e-05,
      "loss": 1.823,
      "step": 2044
    },
    {
      "epoch": 0.2539426300757482,
      "grad_norm": 0.23647554218769073,
      "learning_rate": 5e-05,
      "loss": 1.7393,
      "step": 2045
    },
    {
      "epoch": 0.2540668074009686,
      "grad_norm": 0.24002909660339355,
      "learning_rate": 5e-05,
      "loss": 2.0722,
      "step": 2046
    },
    {
      "epoch": 0.254190984726189,
      "grad_norm": 0.24300985038280487,
      "learning_rate": 5e-05,
      "loss": 1.6658,
      "step": 2047
    },
    {
      "epoch": 0.2543151620514094,
      "grad_norm": 0.24109484255313873,
      "learning_rate": 5e-05,
      "loss": 2.0062,
      "step": 2048
    },
    {
      "epoch": 0.2544393393766298,
      "grad_norm": 0.5002878904342651,
      "learning_rate": 5e-05,
      "loss": 2.9496,
      "step": 2049
    },
    {
      "epoch": 0.25456351670185023,
      "grad_norm": 0.2309587597846985,
      "learning_rate": 5e-05,
      "loss": 1.8569,
      "step": 2050
    },
    {
      "epoch": 0.25468769402707064,
      "grad_norm": 0.2572423219680786,
      "learning_rate": 5e-05,
      "loss": 1.8463,
      "step": 2051
    },
    {
      "epoch": 0.25481187135229105,
      "grad_norm": 0.2645682692527771,
      "learning_rate": 5e-05,
      "loss": 1.9417,
      "step": 2052
    },
    {
      "epoch": 0.25493604867751146,
      "grad_norm": 0.25839585065841675,
      "learning_rate": 5e-05,
      "loss": 1.7537,
      "step": 2053
    },
    {
      "epoch": 0.2550602260027319,
      "grad_norm": 0.33676034212112427,
      "learning_rate": 5e-05,
      "loss": 1.8469,
      "step": 2054
    },
    {
      "epoch": 0.25518440332795234,
      "grad_norm": 0.3969810903072357,
      "learning_rate": 5e-05,
      "loss": 2.8551,
      "step": 2055
    },
    {
      "epoch": 0.25530858065317275,
      "grad_norm": 0.216770738363266,
      "learning_rate": 5e-05,
      "loss": 1.6182,
      "step": 2056
    },
    {
      "epoch": 0.25543275797839315,
      "grad_norm": 0.2686668038368225,
      "learning_rate": 5e-05,
      "loss": 2.061,
      "step": 2057
    },
    {
      "epoch": 0.25555693530361356,
      "grad_norm": 0.26434871554374695,
      "learning_rate": 5e-05,
      "loss": 1.9185,
      "step": 2058
    },
    {
      "epoch": 0.255681112628834,
      "grad_norm": 0.4182075262069702,
      "learning_rate": 5e-05,
      "loss": 2.5353,
      "step": 2059
    },
    {
      "epoch": 0.2558052899540544,
      "grad_norm": 0.3168865144252777,
      "learning_rate": 5e-05,
      "loss": 2.292,
      "step": 2060
    },
    {
      "epoch": 0.2559294672792748,
      "grad_norm": 0.22851121425628662,
      "learning_rate": 5e-05,
      "loss": 1.8511,
      "step": 2061
    },
    {
      "epoch": 0.2560536446044952,
      "grad_norm": 0.28795769810676575,
      "learning_rate": 5e-05,
      "loss": 2.5227,
      "step": 2062
    },
    {
      "epoch": 0.2561778219297156,
      "grad_norm": 0.26309627294540405,
      "learning_rate": 5e-05,
      "loss": 1.9425,
      "step": 2063
    },
    {
      "epoch": 0.2563019992549361,
      "grad_norm": 0.2665860056877136,
      "learning_rate": 5e-05,
      "loss": 1.8391,
      "step": 2064
    },
    {
      "epoch": 0.2564261765801565,
      "grad_norm": 0.25377437472343445,
      "learning_rate": 5e-05,
      "loss": 1.8914,
      "step": 2065
    },
    {
      "epoch": 0.2565503539053769,
      "grad_norm": 0.31546226143836975,
      "learning_rate": 5e-05,
      "loss": 2.2622,
      "step": 2066
    },
    {
      "epoch": 0.2566745312305973,
      "grad_norm": 0.33930104970932007,
      "learning_rate": 5e-05,
      "loss": 2.477,
      "step": 2067
    },
    {
      "epoch": 0.2567987085558177,
      "grad_norm": 0.252470463514328,
      "learning_rate": 5e-05,
      "loss": 1.9096,
      "step": 2068
    },
    {
      "epoch": 0.2569228858810381,
      "grad_norm": 0.3332885503768921,
      "learning_rate": 5e-05,
      "loss": 2.9871,
      "step": 2069
    },
    {
      "epoch": 0.25704706320625853,
      "grad_norm": 0.24781787395477295,
      "learning_rate": 5e-05,
      "loss": 2.0441,
      "step": 2070
    },
    {
      "epoch": 0.25717124053147894,
      "grad_norm": 0.35084837675094604,
      "learning_rate": 5e-05,
      "loss": 2.3459,
      "step": 2071
    },
    {
      "epoch": 0.25729541785669935,
      "grad_norm": 0.2222728729248047,
      "learning_rate": 5e-05,
      "loss": 1.7691,
      "step": 2072
    },
    {
      "epoch": 0.25741959518191976,
      "grad_norm": 0.24346236884593964,
      "learning_rate": 5e-05,
      "loss": 1.7336,
      "step": 2073
    },
    {
      "epoch": 0.2575437725071402,
      "grad_norm": 0.3183536231517792,
      "learning_rate": 5e-05,
      "loss": 2.4286,
      "step": 2074
    },
    {
      "epoch": 0.25766794983236063,
      "grad_norm": 0.2763809561729431,
      "learning_rate": 5e-05,
      "loss": 2.4786,
      "step": 2075
    },
    {
      "epoch": 0.25779212715758104,
      "grad_norm": 0.2623912990093231,
      "learning_rate": 5e-05,
      "loss": 2.1623,
      "step": 2076
    },
    {
      "epoch": 0.25791630448280145,
      "grad_norm": 0.256130188703537,
      "learning_rate": 5e-05,
      "loss": 2.0593,
      "step": 2077
    },
    {
      "epoch": 0.25804048180802186,
      "grad_norm": 0.28890419006347656,
      "learning_rate": 5e-05,
      "loss": 2.4306,
      "step": 2078
    },
    {
      "epoch": 0.25816465913324227,
      "grad_norm": 0.2251637578010559,
      "learning_rate": 5e-05,
      "loss": 1.9284,
      "step": 2079
    },
    {
      "epoch": 0.2582888364584627,
      "grad_norm": 0.28757646679878235,
      "learning_rate": 5e-05,
      "loss": 2.3646,
      "step": 2080
    },
    {
      "epoch": 0.2584130137836831,
      "grad_norm": 0.23034705221652985,
      "learning_rate": 5e-05,
      "loss": 1.6923,
      "step": 2081
    },
    {
      "epoch": 0.2585371911089035,
      "grad_norm": 0.2980548143386841,
      "learning_rate": 5e-05,
      "loss": 2.1013,
      "step": 2082
    },
    {
      "epoch": 0.2586613684341239,
      "grad_norm": 0.246156707406044,
      "learning_rate": 5e-05,
      "loss": 1.9474,
      "step": 2083
    },
    {
      "epoch": 0.25878554575934437,
      "grad_norm": 0.2270069569349289,
      "learning_rate": 5e-05,
      "loss": 1.739,
      "step": 2084
    },
    {
      "epoch": 0.2589097230845648,
      "grad_norm": 0.39138659834861755,
      "learning_rate": 5e-05,
      "loss": 2.8917,
      "step": 2085
    },
    {
      "epoch": 0.2590339004097852,
      "grad_norm": 0.3135612905025482,
      "learning_rate": 5e-05,
      "loss": 2.0143,
      "step": 2086
    },
    {
      "epoch": 0.2591580777350056,
      "grad_norm": 0.2569997012615204,
      "learning_rate": 5e-05,
      "loss": 1.7597,
      "step": 2087
    },
    {
      "epoch": 0.259282255060226,
      "grad_norm": 0.304267555475235,
      "learning_rate": 5e-05,
      "loss": 2.5893,
      "step": 2088
    },
    {
      "epoch": 0.2594064323854464,
      "grad_norm": 0.2569121718406677,
      "learning_rate": 5e-05,
      "loss": 2.1813,
      "step": 2089
    },
    {
      "epoch": 0.2595306097106668,
      "grad_norm": 0.28129658102989197,
      "learning_rate": 5e-05,
      "loss": 2.2705,
      "step": 2090
    },
    {
      "epoch": 0.25965478703588724,
      "grad_norm": 0.258292555809021,
      "learning_rate": 5e-05,
      "loss": 2.032,
      "step": 2091
    },
    {
      "epoch": 0.25977896436110764,
      "grad_norm": 0.26310989260673523,
      "learning_rate": 5e-05,
      "loss": 2.0423,
      "step": 2092
    },
    {
      "epoch": 0.25990314168632805,
      "grad_norm": 0.23579686880111694,
      "learning_rate": 5e-05,
      "loss": 1.8162,
      "step": 2093
    },
    {
      "epoch": 0.2600273190115485,
      "grad_norm": 0.232418492436409,
      "learning_rate": 5e-05,
      "loss": 1.7722,
      "step": 2094
    },
    {
      "epoch": 0.26015149633676893,
      "grad_norm": 0.28086546063423157,
      "learning_rate": 5e-05,
      "loss": 2.4549,
      "step": 2095
    },
    {
      "epoch": 0.26027567366198934,
      "grad_norm": 0.25034159421920776,
      "learning_rate": 5e-05,
      "loss": 2.0505,
      "step": 2096
    },
    {
      "epoch": 0.26039985098720975,
      "grad_norm": 0.228069469332695,
      "learning_rate": 5e-05,
      "loss": 1.6012,
      "step": 2097
    },
    {
      "epoch": 0.26052402831243016,
      "grad_norm": 0.22270333766937256,
      "learning_rate": 5e-05,
      "loss": 1.8579,
      "step": 2098
    },
    {
      "epoch": 0.26064820563765057,
      "grad_norm": 0.23570704460144043,
      "learning_rate": 5e-05,
      "loss": 1.9557,
      "step": 2099
    },
    {
      "epoch": 0.260772382962871,
      "grad_norm": 0.295588880777359,
      "learning_rate": 5e-05,
      "loss": 2.0888,
      "step": 2100
    },
    {
      "epoch": 0.2608965602880914,
      "grad_norm": 0.22561363875865936,
      "learning_rate": 5e-05,
      "loss": 1.9189,
      "step": 2101
    },
    {
      "epoch": 0.2610207376133118,
      "grad_norm": 0.4077657163143158,
      "learning_rate": 5e-05,
      "loss": 2.7744,
      "step": 2102
    },
    {
      "epoch": 0.2611449149385322,
      "grad_norm": 0.29966095089912415,
      "learning_rate": 5e-05,
      "loss": 2.1181,
      "step": 2103
    },
    {
      "epoch": 0.2612690922637526,
      "grad_norm": 0.27679991722106934,
      "learning_rate": 5e-05,
      "loss": 2.1859,
      "step": 2104
    },
    {
      "epoch": 0.2613932695889731,
      "grad_norm": 0.23642289638519287,
      "learning_rate": 5e-05,
      "loss": 1.9934,
      "step": 2105
    },
    {
      "epoch": 0.2615174469141935,
      "grad_norm": 0.2690558135509491,
      "learning_rate": 5e-05,
      "loss": 2.2696,
      "step": 2106
    },
    {
      "epoch": 0.2616416242394139,
      "grad_norm": 0.27591317892074585,
      "learning_rate": 5e-05,
      "loss": 2.0716,
      "step": 2107
    },
    {
      "epoch": 0.2617658015646343,
      "grad_norm": 0.32620933651924133,
      "learning_rate": 5e-05,
      "loss": 2.7693,
      "step": 2108
    },
    {
      "epoch": 0.2618899788898547,
      "grad_norm": 0.3226400911808014,
      "learning_rate": 5e-05,
      "loss": 2.2325,
      "step": 2109
    },
    {
      "epoch": 0.2620141562150751,
      "grad_norm": 0.22471946477890015,
      "learning_rate": 5e-05,
      "loss": 1.5835,
      "step": 2110
    },
    {
      "epoch": 0.26213833354029553,
      "grad_norm": 0.21536286175251007,
      "learning_rate": 5e-05,
      "loss": 1.756,
      "step": 2111
    },
    {
      "epoch": 0.26226251086551594,
      "grad_norm": 0.2856312692165375,
      "learning_rate": 5e-05,
      "loss": 2.6498,
      "step": 2112
    },
    {
      "epoch": 0.26238668819073635,
      "grad_norm": 0.29251551628112793,
      "learning_rate": 5e-05,
      "loss": 2.4083,
      "step": 2113
    },
    {
      "epoch": 0.26251086551595676,
      "grad_norm": 0.25755417346954346,
      "learning_rate": 5e-05,
      "loss": 1.999,
      "step": 2114
    },
    {
      "epoch": 0.2626350428411772,
      "grad_norm": 0.24057379364967346,
      "learning_rate": 5e-05,
      "loss": 2.0975,
      "step": 2115
    },
    {
      "epoch": 0.26275922016639763,
      "grad_norm": 0.25699663162231445,
      "learning_rate": 5e-05,
      "loss": 1.7909,
      "step": 2116
    },
    {
      "epoch": 0.26288339749161804,
      "grad_norm": 0.2828010022640228,
      "learning_rate": 5e-05,
      "loss": 2.0109,
      "step": 2117
    },
    {
      "epoch": 0.26300757481683845,
      "grad_norm": 0.2292487770318985,
      "learning_rate": 5e-05,
      "loss": 1.9333,
      "step": 2118
    },
    {
      "epoch": 0.26313175214205886,
      "grad_norm": 0.34071868658065796,
      "learning_rate": 5e-05,
      "loss": 2.4698,
      "step": 2119
    },
    {
      "epoch": 0.26325592946727927,
      "grad_norm": 0.22953563928604126,
      "learning_rate": 5e-05,
      "loss": 2.0231,
      "step": 2120
    },
    {
      "epoch": 0.2633801067924997,
      "grad_norm": 0.677270233631134,
      "learning_rate": 5e-05,
      "loss": 3.1947,
      "step": 2121
    },
    {
      "epoch": 0.2635042841177201,
      "grad_norm": 0.22566376626491547,
      "learning_rate": 5e-05,
      "loss": 1.5957,
      "step": 2122
    },
    {
      "epoch": 0.2636284614429405,
      "grad_norm": 0.28488659858703613,
      "learning_rate": 5e-05,
      "loss": 2.0535,
      "step": 2123
    },
    {
      "epoch": 0.2637526387681609,
      "grad_norm": 0.25570377707481384,
      "learning_rate": 5e-05,
      "loss": 1.8684,
      "step": 2124
    },
    {
      "epoch": 0.26387681609338137,
      "grad_norm": 0.23350538313388824,
      "learning_rate": 5e-05,
      "loss": 1.6609,
      "step": 2125
    },
    {
      "epoch": 0.2640009934186018,
      "grad_norm": 0.29248863458633423,
      "learning_rate": 5e-05,
      "loss": 2.0525,
      "step": 2126
    },
    {
      "epoch": 0.2641251707438222,
      "grad_norm": 0.2242303192615509,
      "learning_rate": 5e-05,
      "loss": 1.6695,
      "step": 2127
    },
    {
      "epoch": 0.2642493480690426,
      "grad_norm": 0.2562909722328186,
      "learning_rate": 5e-05,
      "loss": 2.037,
      "step": 2128
    },
    {
      "epoch": 0.264373525394263,
      "grad_norm": 0.26936212182044983,
      "learning_rate": 5e-05,
      "loss": 1.7756,
      "step": 2129
    },
    {
      "epoch": 0.2644977027194834,
      "grad_norm": 0.25242146849632263,
      "learning_rate": 5e-05,
      "loss": 1.8722,
      "step": 2130
    },
    {
      "epoch": 0.2646218800447038,
      "grad_norm": 0.3085550367832184,
      "learning_rate": 5e-05,
      "loss": 1.7277,
      "step": 2131
    },
    {
      "epoch": 0.26474605736992424,
      "grad_norm": 0.24068817496299744,
      "learning_rate": 5e-05,
      "loss": 1.9189,
      "step": 2132
    },
    {
      "epoch": 0.26487023469514465,
      "grad_norm": 0.25240883231163025,
      "learning_rate": 5e-05,
      "loss": 2.131,
      "step": 2133
    },
    {
      "epoch": 0.26499441202036506,
      "grad_norm": 0.251799613237381,
      "learning_rate": 5e-05,
      "loss": 1.8389,
      "step": 2134
    },
    {
      "epoch": 0.2651185893455855,
      "grad_norm": 0.24193397164344788,
      "learning_rate": 5e-05,
      "loss": 2.0534,
      "step": 2135
    },
    {
      "epoch": 0.26524276667080593,
      "grad_norm": 0.3370469808578491,
      "learning_rate": 5e-05,
      "loss": 2.8748,
      "step": 2136
    },
    {
      "epoch": 0.26536694399602634,
      "grad_norm": 0.2501845061779022,
      "learning_rate": 5e-05,
      "loss": 1.7923,
      "step": 2137
    },
    {
      "epoch": 0.26549112132124675,
      "grad_norm": 0.2880485951900482,
      "learning_rate": 5e-05,
      "loss": 2.0938,
      "step": 2138
    },
    {
      "epoch": 0.26561529864646716,
      "grad_norm": 0.23581233620643616,
      "learning_rate": 5e-05,
      "loss": 1.6483,
      "step": 2139
    },
    {
      "epoch": 0.26573947597168757,
      "grad_norm": 0.23065868020057678,
      "learning_rate": 5e-05,
      "loss": 1.8004,
      "step": 2140
    },
    {
      "epoch": 0.265863653296908,
      "grad_norm": 0.23730231821537018,
      "learning_rate": 5e-05,
      "loss": 1.8783,
      "step": 2141
    },
    {
      "epoch": 0.2659878306221284,
      "grad_norm": 0.2595699429512024,
      "learning_rate": 5e-05,
      "loss": 1.9,
      "step": 2142
    },
    {
      "epoch": 0.2661120079473488,
      "grad_norm": 0.2780103385448456,
      "learning_rate": 5e-05,
      "loss": 2.164,
      "step": 2143
    },
    {
      "epoch": 0.2662361852725692,
      "grad_norm": 0.2823382616043091,
      "learning_rate": 5e-05,
      "loss": 2.0296,
      "step": 2144
    },
    {
      "epoch": 0.26636036259778967,
      "grad_norm": 0.2872154414653778,
      "learning_rate": 5e-05,
      "loss": 2.3025,
      "step": 2145
    },
    {
      "epoch": 0.2664845399230101,
      "grad_norm": 0.24791646003723145,
      "learning_rate": 5e-05,
      "loss": 2.031,
      "step": 2146
    },
    {
      "epoch": 0.2666087172482305,
      "grad_norm": 0.24226826429367065,
      "learning_rate": 5e-05,
      "loss": 1.921,
      "step": 2147
    },
    {
      "epoch": 0.2667328945734509,
      "grad_norm": 0.3547041416168213,
      "learning_rate": 5e-05,
      "loss": 2.3231,
      "step": 2148
    },
    {
      "epoch": 0.2668570718986713,
      "grad_norm": 0.25479254126548767,
      "learning_rate": 5e-05,
      "loss": 2.0199,
      "step": 2149
    },
    {
      "epoch": 0.2669812492238917,
      "grad_norm": 0.29904577136039734,
      "learning_rate": 5e-05,
      "loss": 2.6155,
      "step": 2150
    },
    {
      "epoch": 0.2671054265491121,
      "grad_norm": 0.4940663278102875,
      "learning_rate": 5e-05,
      "loss": 3.405,
      "step": 2151
    },
    {
      "epoch": 0.26722960387433253,
      "grad_norm": 0.3255084455013275,
      "learning_rate": 5e-05,
      "loss": 2.8758,
      "step": 2152
    },
    {
      "epoch": 0.26735378119955294,
      "grad_norm": 0.27092376351356506,
      "learning_rate": 5e-05,
      "loss": 2.2788,
      "step": 2153
    },
    {
      "epoch": 0.26747795852477335,
      "grad_norm": 0.26672711968421936,
      "learning_rate": 5e-05,
      "loss": 2.2986,
      "step": 2154
    },
    {
      "epoch": 0.2676021358499938,
      "grad_norm": 0.24492858350276947,
      "learning_rate": 5e-05,
      "loss": 2.0853,
      "step": 2155
    },
    {
      "epoch": 0.2677263131752142,
      "grad_norm": 0.24383944272994995,
      "learning_rate": 5e-05,
      "loss": 1.8262,
      "step": 2156
    },
    {
      "epoch": 0.26785049050043463,
      "grad_norm": 0.2774048447608948,
      "learning_rate": 5e-05,
      "loss": 2.0749,
      "step": 2157
    },
    {
      "epoch": 0.26797466782565504,
      "grad_norm": 0.2561037242412567,
      "learning_rate": 5e-05,
      "loss": 1.9176,
      "step": 2158
    },
    {
      "epoch": 0.26809884515087545,
      "grad_norm": 0.24214661121368408,
      "learning_rate": 5e-05,
      "loss": 1.8382,
      "step": 2159
    },
    {
      "epoch": 0.26822302247609586,
      "grad_norm": 0.24293182790279388,
      "learning_rate": 5e-05,
      "loss": 1.9024,
      "step": 2160
    },
    {
      "epoch": 0.26834719980131627,
      "grad_norm": 0.31856676936149597,
      "learning_rate": 5e-05,
      "loss": 2.7667,
      "step": 2161
    },
    {
      "epoch": 0.2684713771265367,
      "grad_norm": 0.24666784703731537,
      "learning_rate": 5e-05,
      "loss": 1.6426,
      "step": 2162
    },
    {
      "epoch": 0.2685955544517571,
      "grad_norm": 0.2479521483182907,
      "learning_rate": 5e-05,
      "loss": 1.9749,
      "step": 2163
    },
    {
      "epoch": 0.2687197317769775,
      "grad_norm": 0.2446976900100708,
      "learning_rate": 5e-05,
      "loss": 1.8633,
      "step": 2164
    },
    {
      "epoch": 0.26884390910219796,
      "grad_norm": 0.22923824191093445,
      "learning_rate": 5e-05,
      "loss": 1.9313,
      "step": 2165
    },
    {
      "epoch": 0.2689680864274184,
      "grad_norm": 0.24432528018951416,
      "learning_rate": 5e-05,
      "loss": 2.0022,
      "step": 2166
    },
    {
      "epoch": 0.2690922637526388,
      "grad_norm": 0.23449097573757172,
      "learning_rate": 5e-05,
      "loss": 1.9619,
      "step": 2167
    },
    {
      "epoch": 0.2692164410778592,
      "grad_norm": 0.32519522309303284,
      "learning_rate": 5e-05,
      "loss": 2.0974,
      "step": 2168
    },
    {
      "epoch": 0.2693406184030796,
      "grad_norm": 0.27445507049560547,
      "learning_rate": 5e-05,
      "loss": 2.3887,
      "step": 2169
    },
    {
      "epoch": 0.2694647957283,
      "grad_norm": 0.24460965394973755,
      "learning_rate": 5e-05,
      "loss": 1.8538,
      "step": 2170
    },
    {
      "epoch": 0.2695889730535204,
      "grad_norm": 0.22980999946594238,
      "learning_rate": 5e-05,
      "loss": 1.7126,
      "step": 2171
    },
    {
      "epoch": 0.26971315037874083,
      "grad_norm": 0.3191908001899719,
      "learning_rate": 5e-05,
      "loss": 2.2159,
      "step": 2172
    },
    {
      "epoch": 0.26983732770396124,
      "grad_norm": 0.22930824756622314,
      "learning_rate": 5e-05,
      "loss": 1.8426,
      "step": 2173
    },
    {
      "epoch": 0.26996150502918165,
      "grad_norm": 0.23960471153259277,
      "learning_rate": 5e-05,
      "loss": 1.8925,
      "step": 2174
    },
    {
      "epoch": 0.2700856823544021,
      "grad_norm": 0.22068379819393158,
      "learning_rate": 5e-05,
      "loss": 1.7616,
      "step": 2175
    },
    {
      "epoch": 0.2702098596796225,
      "grad_norm": 0.3168589770793915,
      "learning_rate": 5e-05,
      "loss": 2.4608,
      "step": 2176
    },
    {
      "epoch": 0.27033403700484293,
      "grad_norm": 0.24010834097862244,
      "learning_rate": 5e-05,
      "loss": 2.0371,
      "step": 2177
    },
    {
      "epoch": 0.27045821433006334,
      "grad_norm": 0.22494138777256012,
      "learning_rate": 5e-05,
      "loss": 1.7463,
      "step": 2178
    },
    {
      "epoch": 0.27058239165528375,
      "grad_norm": 0.3759515881538391,
      "learning_rate": 5e-05,
      "loss": 2.3344,
      "step": 2179
    },
    {
      "epoch": 0.27070656898050416,
      "grad_norm": 0.25227877497673035,
      "learning_rate": 5e-05,
      "loss": 1.8971,
      "step": 2180
    },
    {
      "epoch": 0.27083074630572457,
      "grad_norm": 0.264453262090683,
      "learning_rate": 5e-05,
      "loss": 2.1299,
      "step": 2181
    },
    {
      "epoch": 0.270954923630945,
      "grad_norm": 0.29659131169319153,
      "learning_rate": 5e-05,
      "loss": 1.9368,
      "step": 2182
    },
    {
      "epoch": 0.2710791009561654,
      "grad_norm": 0.23890623450279236,
      "learning_rate": 5e-05,
      "loss": 2.016,
      "step": 2183
    },
    {
      "epoch": 0.2712032782813858,
      "grad_norm": 0.35334932804107666,
      "learning_rate": 5e-05,
      "loss": 2.1166,
      "step": 2184
    },
    {
      "epoch": 0.27132745560660626,
      "grad_norm": 0.23995842039585114,
      "learning_rate": 5e-05,
      "loss": 1.9291,
      "step": 2185
    },
    {
      "epoch": 0.27145163293182667,
      "grad_norm": 0.3405332565307617,
      "learning_rate": 5e-05,
      "loss": 2.3928,
      "step": 2186
    },
    {
      "epoch": 0.2715758102570471,
      "grad_norm": 0.29112547636032104,
      "learning_rate": 5e-05,
      "loss": 1.9831,
      "step": 2187
    },
    {
      "epoch": 0.2716999875822675,
      "grad_norm": 0.3502449095249176,
      "learning_rate": 5e-05,
      "loss": 2.6041,
      "step": 2188
    },
    {
      "epoch": 0.2718241649074879,
      "grad_norm": 0.2677818536758423,
      "learning_rate": 5e-05,
      "loss": 1.601,
      "step": 2189
    },
    {
      "epoch": 0.2719483422327083,
      "grad_norm": 0.24154359102249146,
      "learning_rate": 5e-05,
      "loss": 1.8655,
      "step": 2190
    },
    {
      "epoch": 0.2720725195579287,
      "grad_norm": 0.2517216205596924,
      "learning_rate": 5e-05,
      "loss": 1.7531,
      "step": 2191
    },
    {
      "epoch": 0.2721966968831491,
      "grad_norm": 0.2473239004611969,
      "learning_rate": 5e-05,
      "loss": 1.9925,
      "step": 2192
    },
    {
      "epoch": 0.27232087420836953,
      "grad_norm": 0.24694471061229706,
      "learning_rate": 5e-05,
      "loss": 1.9079,
      "step": 2193
    },
    {
      "epoch": 0.27244505153358994,
      "grad_norm": 0.2570899426937103,
      "learning_rate": 5e-05,
      "loss": 1.9159,
      "step": 2194
    },
    {
      "epoch": 0.2725692288588104,
      "grad_norm": 0.24684719741344452,
      "learning_rate": 5e-05,
      "loss": 1.8469,
      "step": 2195
    },
    {
      "epoch": 0.2726934061840308,
      "grad_norm": 0.23923180997371674,
      "learning_rate": 5e-05,
      "loss": 2.0765,
      "step": 2196
    },
    {
      "epoch": 0.2728175835092512,
      "grad_norm": 0.2378152459859848,
      "learning_rate": 5e-05,
      "loss": 2.0114,
      "step": 2197
    },
    {
      "epoch": 0.27294176083447164,
      "grad_norm": 0.2399219423532486,
      "learning_rate": 5e-05,
      "loss": 1.7826,
      "step": 2198
    },
    {
      "epoch": 0.27306593815969205,
      "grad_norm": 0.24805906414985657,
      "learning_rate": 5e-05,
      "loss": 1.9945,
      "step": 2199
    },
    {
      "epoch": 0.27319011548491245,
      "grad_norm": 0.2733684778213501,
      "learning_rate": 5e-05,
      "loss": 2.1438,
      "step": 2200
    },
    {
      "epoch": 0.27331429281013286,
      "grad_norm": 0.23346713185310364,
      "learning_rate": 5e-05,
      "loss": 1.6574,
      "step": 2201
    },
    {
      "epoch": 0.2734384701353533,
      "grad_norm": 0.24403202533721924,
      "learning_rate": 5e-05,
      "loss": 2.1564,
      "step": 2202
    },
    {
      "epoch": 0.2735626474605737,
      "grad_norm": 0.2380913347005844,
      "learning_rate": 5e-05,
      "loss": 1.9491,
      "step": 2203
    },
    {
      "epoch": 0.2736868247857941,
      "grad_norm": 0.3888758718967438,
      "learning_rate": 5e-05,
      "loss": 2.9879,
      "step": 2204
    },
    {
      "epoch": 0.27381100211101456,
      "grad_norm": 0.6516531705856323,
      "learning_rate": 5e-05,
      "loss": 3.3973,
      "step": 2205
    },
    {
      "epoch": 0.27393517943623497,
      "grad_norm": 0.3094015121459961,
      "learning_rate": 5e-05,
      "loss": 2.1015,
      "step": 2206
    },
    {
      "epoch": 0.2740593567614554,
      "grad_norm": 0.46443596482276917,
      "learning_rate": 5e-05,
      "loss": 2.1267,
      "step": 2207
    },
    {
      "epoch": 0.2741835340866758,
      "grad_norm": 0.2511177062988281,
      "learning_rate": 5e-05,
      "loss": 1.689,
      "step": 2208
    },
    {
      "epoch": 0.2743077114118962,
      "grad_norm": 0.30328696966171265,
      "learning_rate": 5e-05,
      "loss": 2.4356,
      "step": 2209
    },
    {
      "epoch": 0.2744318887371166,
      "grad_norm": 0.31477105617523193,
      "learning_rate": 5e-05,
      "loss": 2.7878,
      "step": 2210
    },
    {
      "epoch": 0.274556066062337,
      "grad_norm": 0.7352878451347351,
      "learning_rate": 5e-05,
      "loss": 3.478,
      "step": 2211
    },
    {
      "epoch": 0.2746802433875574,
      "grad_norm": 0.33083683252334595,
      "learning_rate": 5e-05,
      "loss": 2.4199,
      "step": 2212
    },
    {
      "epoch": 0.27480442071277783,
      "grad_norm": 0.3189690113067627,
      "learning_rate": 5e-05,
      "loss": 1.8509,
      "step": 2213
    },
    {
      "epoch": 0.27492859803799824,
      "grad_norm": 0.3604205846786499,
      "learning_rate": 5e-05,
      "loss": 1.7891,
      "step": 2214
    },
    {
      "epoch": 0.27505277536321865,
      "grad_norm": 0.27476003766059875,
      "learning_rate": 5e-05,
      "loss": 1.7433,
      "step": 2215
    },
    {
      "epoch": 0.2751769526884391,
      "grad_norm": 0.297737717628479,
      "learning_rate": 5e-05,
      "loss": 1.9115,
      "step": 2216
    },
    {
      "epoch": 0.2753011300136595,
      "grad_norm": 0.22951345145702362,
      "learning_rate": 5e-05,
      "loss": 1.7226,
      "step": 2217
    },
    {
      "epoch": 0.27542530733887993,
      "grad_norm": 0.2588718831539154,
      "learning_rate": 5e-05,
      "loss": 2.1228,
      "step": 2218
    },
    {
      "epoch": 0.27554948466410034,
      "grad_norm": 0.5698748230934143,
      "learning_rate": 5e-05,
      "loss": 3.1327,
      "step": 2219
    },
    {
      "epoch": 0.27567366198932075,
      "grad_norm": 0.3699195683002472,
      "learning_rate": 5e-05,
      "loss": 2.8148,
      "step": 2220
    },
    {
      "epoch": 0.27579783931454116,
      "grad_norm": 0.36215469241142273,
      "learning_rate": 5e-05,
      "loss": 1.8118,
      "step": 2221
    },
    {
      "epoch": 0.27592201663976157,
      "grad_norm": 0.36940595507621765,
      "learning_rate": 5e-05,
      "loss": 2.2595,
      "step": 2222
    },
    {
      "epoch": 0.276046193964982,
      "grad_norm": 0.2779625952243805,
      "learning_rate": 5e-05,
      "loss": 1.7874,
      "step": 2223
    },
    {
      "epoch": 0.2761703712902024,
      "grad_norm": 0.2580413520336151,
      "learning_rate": 5e-05,
      "loss": 1.9087,
      "step": 2224
    },
    {
      "epoch": 0.2762945486154228,
      "grad_norm": 0.2595154643058777,
      "learning_rate": 5e-05,
      "loss": 2.1569,
      "step": 2225
    },
    {
      "epoch": 0.27641872594064326,
      "grad_norm": 0.3171026110649109,
      "learning_rate": 5e-05,
      "loss": 2.4358,
      "step": 2226
    },
    {
      "epoch": 0.27654290326586367,
      "grad_norm": 0.4386424124240875,
      "learning_rate": 5e-05,
      "loss": 3.1282,
      "step": 2227
    },
    {
      "epoch": 0.2766670805910841,
      "grad_norm": 0.3229656219482422,
      "learning_rate": 5e-05,
      "loss": 2.2222,
      "step": 2228
    },
    {
      "epoch": 0.2767912579163045,
      "grad_norm": 0.26302337646484375,
      "learning_rate": 5e-05,
      "loss": 2.0297,
      "step": 2229
    },
    {
      "epoch": 0.2769154352415249,
      "grad_norm": 0.23068632185459137,
      "learning_rate": 5e-05,
      "loss": 1.609,
      "step": 2230
    },
    {
      "epoch": 0.2770396125667453,
      "grad_norm": 0.24477170407772064,
      "learning_rate": 5e-05,
      "loss": 1.8443,
      "step": 2231
    },
    {
      "epoch": 0.2771637898919657,
      "grad_norm": 0.281086266040802,
      "learning_rate": 5e-05,
      "loss": 1.8743,
      "step": 2232
    },
    {
      "epoch": 0.2772879672171861,
      "grad_norm": 0.36004120111465454,
      "learning_rate": 5e-05,
      "loss": 2.2178,
      "step": 2233
    },
    {
      "epoch": 0.27741214454240654,
      "grad_norm": 0.3039983808994293,
      "learning_rate": 5e-05,
      "loss": 2.2681,
      "step": 2234
    },
    {
      "epoch": 0.27753632186762695,
      "grad_norm": 0.24104949831962585,
      "learning_rate": 5e-05,
      "loss": 1.791,
      "step": 2235
    },
    {
      "epoch": 0.2776604991928474,
      "grad_norm": 0.2971158027648926,
      "learning_rate": 5e-05,
      "loss": 2.2856,
      "step": 2236
    },
    {
      "epoch": 0.2777846765180678,
      "grad_norm": 0.6112428307533264,
      "learning_rate": 5e-05,
      "loss": 3.3518,
      "step": 2237
    },
    {
      "epoch": 0.27790885384328823,
      "grad_norm": 0.24120260775089264,
      "learning_rate": 5e-05,
      "loss": 1.7549,
      "step": 2238
    },
    {
      "epoch": 0.27803303116850864,
      "grad_norm": 0.28159934282302856,
      "learning_rate": 5e-05,
      "loss": 2.0611,
      "step": 2239
    },
    {
      "epoch": 0.27815720849372905,
      "grad_norm": 0.23474760353565216,
      "learning_rate": 5e-05,
      "loss": 1.9129,
      "step": 2240
    },
    {
      "epoch": 0.27828138581894946,
      "grad_norm": 0.2380552887916565,
      "learning_rate": 5e-05,
      "loss": 1.8316,
      "step": 2241
    },
    {
      "epoch": 0.27840556314416987,
      "grad_norm": 0.2604740262031555,
      "learning_rate": 5e-05,
      "loss": 2.0654,
      "step": 2242
    },
    {
      "epoch": 0.2785297404693903,
      "grad_norm": 0.2551412880420685,
      "learning_rate": 5e-05,
      "loss": 1.7274,
      "step": 2243
    },
    {
      "epoch": 0.2786539177946107,
      "grad_norm": 0.2548082172870636,
      "learning_rate": 5e-05,
      "loss": 1.9978,
      "step": 2244
    },
    {
      "epoch": 0.2787780951198311,
      "grad_norm": 0.3627321720123291,
      "learning_rate": 5e-05,
      "loss": 2.8858,
      "step": 2245
    },
    {
      "epoch": 0.27890227244505156,
      "grad_norm": 0.24462072551250458,
      "learning_rate": 5e-05,
      "loss": 2.0826,
      "step": 2246
    },
    {
      "epoch": 0.27902644977027197,
      "grad_norm": 0.5113473534584045,
      "learning_rate": 5e-05,
      "loss": 2.8601,
      "step": 2247
    },
    {
      "epoch": 0.2791506270954924,
      "grad_norm": 0.2635073959827423,
      "learning_rate": 5e-05,
      "loss": 2.3143,
      "step": 2248
    },
    {
      "epoch": 0.2792748044207128,
      "grad_norm": 0.3092377781867981,
      "learning_rate": 5e-05,
      "loss": 2.1067,
      "step": 2249
    },
    {
      "epoch": 0.2793989817459332,
      "grad_norm": 0.22348101437091827,
      "learning_rate": 5e-05,
      "loss": 1.6217,
      "step": 2250
    },
    {
      "epoch": 0.2795231590711536,
      "grad_norm": 0.4503592252731323,
      "learning_rate": 5e-05,
      "loss": 2.6548,
      "step": 2251
    },
    {
      "epoch": 0.279647336396374,
      "grad_norm": 0.288337379693985,
      "learning_rate": 5e-05,
      "loss": 2.1731,
      "step": 2252
    },
    {
      "epoch": 0.2797715137215944,
      "grad_norm": 0.25461119413375854,
      "learning_rate": 5e-05,
      "loss": 2.1026,
      "step": 2253
    },
    {
      "epoch": 0.27989569104681483,
      "grad_norm": 0.3134608566761017,
      "learning_rate": 5e-05,
      "loss": 2.7694,
      "step": 2254
    },
    {
      "epoch": 0.28001986837203524,
      "grad_norm": 0.2979837954044342,
      "learning_rate": 5e-05,
      "loss": 2.2254,
      "step": 2255
    },
    {
      "epoch": 0.2801440456972557,
      "grad_norm": 0.36209309101104736,
      "learning_rate": 5e-05,
      "loss": 2.7028,
      "step": 2256
    },
    {
      "epoch": 0.2802682230224761,
      "grad_norm": 0.3788640797138214,
      "learning_rate": 5e-05,
      "loss": 2.7447,
      "step": 2257
    },
    {
      "epoch": 0.2803924003476965,
      "grad_norm": 0.25468653440475464,
      "learning_rate": 5e-05,
      "loss": 1.6277,
      "step": 2258
    },
    {
      "epoch": 0.28051657767291693,
      "grad_norm": 0.2354038953781128,
      "learning_rate": 5e-05,
      "loss": 1.7599,
      "step": 2259
    },
    {
      "epoch": 0.28064075499813734,
      "grad_norm": 0.30122730135917664,
      "learning_rate": 5e-05,
      "loss": 1.8833,
      "step": 2260
    },
    {
      "epoch": 0.28076493232335775,
      "grad_norm": 0.32940787076950073,
      "learning_rate": 5e-05,
      "loss": 2.7236,
      "step": 2261
    },
    {
      "epoch": 0.28088910964857816,
      "grad_norm": 0.25223779678344727,
      "learning_rate": 5e-05,
      "loss": 1.7249,
      "step": 2262
    },
    {
      "epoch": 0.28101328697379857,
      "grad_norm": 0.3634922504425049,
      "learning_rate": 5e-05,
      "loss": 2.8195,
      "step": 2263
    },
    {
      "epoch": 0.281137464299019,
      "grad_norm": 0.25755050778388977,
      "learning_rate": 5e-05,
      "loss": 2.021,
      "step": 2264
    },
    {
      "epoch": 0.2812616416242394,
      "grad_norm": 0.24746693670749664,
      "learning_rate": 5e-05,
      "loss": 1.8628,
      "step": 2265
    },
    {
      "epoch": 0.28138581894945985,
      "grad_norm": 0.34618109464645386,
      "learning_rate": 5e-05,
      "loss": 2.8502,
      "step": 2266
    },
    {
      "epoch": 0.28150999627468026,
      "grad_norm": 0.2772164046764374,
      "learning_rate": 5e-05,
      "loss": 2.1182,
      "step": 2267
    },
    {
      "epoch": 0.2816341735999007,
      "grad_norm": 0.24964843690395355,
      "learning_rate": 5e-05,
      "loss": 1.9586,
      "step": 2268
    },
    {
      "epoch": 0.2817583509251211,
      "grad_norm": 0.2371501624584198,
      "learning_rate": 5e-05,
      "loss": 1.987,
      "step": 2269
    },
    {
      "epoch": 0.2818825282503415,
      "grad_norm": 0.3191934823989868,
      "learning_rate": 5e-05,
      "loss": 2.9567,
      "step": 2270
    },
    {
      "epoch": 0.2820067055755619,
      "grad_norm": 0.2739006280899048,
      "learning_rate": 5e-05,
      "loss": 2.2691,
      "step": 2271
    },
    {
      "epoch": 0.2821308829007823,
      "grad_norm": 0.27598080039024353,
      "learning_rate": 5e-05,
      "loss": 2.2476,
      "step": 2272
    },
    {
      "epoch": 0.2822550602260027,
      "grad_norm": 0.23905223608016968,
      "learning_rate": 5e-05,
      "loss": 1.7903,
      "step": 2273
    },
    {
      "epoch": 0.28237923755122313,
      "grad_norm": 0.30678167939186096,
      "learning_rate": 5e-05,
      "loss": 2.5744,
      "step": 2274
    },
    {
      "epoch": 0.28250341487644354,
      "grad_norm": 0.23026947677135468,
      "learning_rate": 5e-05,
      "loss": 1.703,
      "step": 2275
    },
    {
      "epoch": 0.282627592201664,
      "grad_norm": 0.4967389404773712,
      "learning_rate": 5e-05,
      "loss": 3.088,
      "step": 2276
    },
    {
      "epoch": 0.2827517695268844,
      "grad_norm": 0.2934126853942871,
      "learning_rate": 5e-05,
      "loss": 2.1456,
      "step": 2277
    },
    {
      "epoch": 0.2828759468521048,
      "grad_norm": 0.3016539216041565,
      "learning_rate": 5e-05,
      "loss": 2.1929,
      "step": 2278
    },
    {
      "epoch": 0.28300012417732523,
      "grad_norm": 0.31496742367744446,
      "learning_rate": 5e-05,
      "loss": 2.5584,
      "step": 2279
    },
    {
      "epoch": 0.28312430150254564,
      "grad_norm": 0.30930665135383606,
      "learning_rate": 5e-05,
      "loss": 2.4248,
      "step": 2280
    },
    {
      "epoch": 0.28324847882776605,
      "grad_norm": 0.2566080093383789,
      "learning_rate": 5e-05,
      "loss": 1.9646,
      "step": 2281
    },
    {
      "epoch": 0.28337265615298646,
      "grad_norm": 0.23041681945323944,
      "learning_rate": 5e-05,
      "loss": 1.836,
      "step": 2282
    },
    {
      "epoch": 0.28349683347820687,
      "grad_norm": 0.2395760864019394,
      "learning_rate": 5e-05,
      "loss": 1.8731,
      "step": 2283
    },
    {
      "epoch": 0.2836210108034273,
      "grad_norm": 0.308156818151474,
      "learning_rate": 5e-05,
      "loss": 2.3229,
      "step": 2284
    },
    {
      "epoch": 0.2837451881286477,
      "grad_norm": 0.37290820479393005,
      "learning_rate": 5e-05,
      "loss": 3.3451,
      "step": 2285
    },
    {
      "epoch": 0.28386936545386815,
      "grad_norm": 0.24113960564136505,
      "learning_rate": 5e-05,
      "loss": 1.7158,
      "step": 2286
    },
    {
      "epoch": 0.28399354277908856,
      "grad_norm": 0.3444121479988098,
      "learning_rate": 5e-05,
      "loss": 2.6584,
      "step": 2287
    },
    {
      "epoch": 0.28411772010430897,
      "grad_norm": 0.23463676869869232,
      "learning_rate": 5e-05,
      "loss": 1.6836,
      "step": 2288
    },
    {
      "epoch": 0.2842418974295294,
      "grad_norm": 0.3306749761104584,
      "learning_rate": 5e-05,
      "loss": 2.6244,
      "step": 2289
    },
    {
      "epoch": 0.2843660747547498,
      "grad_norm": 0.26500290632247925,
      "learning_rate": 5e-05,
      "loss": 1.932,
      "step": 2290
    },
    {
      "epoch": 0.2844902520799702,
      "grad_norm": 0.23685447871685028,
      "learning_rate": 5e-05,
      "loss": 1.8187,
      "step": 2291
    },
    {
      "epoch": 0.2846144294051906,
      "grad_norm": 0.425360769033432,
      "learning_rate": 5e-05,
      "loss": 3.4631,
      "step": 2292
    },
    {
      "epoch": 0.284738606730411,
      "grad_norm": 0.2755737602710724,
      "learning_rate": 5e-05,
      "loss": 2.1109,
      "step": 2293
    },
    {
      "epoch": 0.2848627840556314,
      "grad_norm": 0.33775594830513,
      "learning_rate": 5e-05,
      "loss": 2.2524,
      "step": 2294
    },
    {
      "epoch": 0.28498696138085183,
      "grad_norm": 0.2746567726135254,
      "learning_rate": 5e-05,
      "loss": 2.0766,
      "step": 2295
    },
    {
      "epoch": 0.2851111387060723,
      "grad_norm": 0.23744775354862213,
      "learning_rate": 5e-05,
      "loss": 1.7551,
      "step": 2296
    },
    {
      "epoch": 0.2852353160312927,
      "grad_norm": 0.2792019844055176,
      "learning_rate": 5e-05,
      "loss": 2.132,
      "step": 2297
    },
    {
      "epoch": 0.2853594933565131,
      "grad_norm": 0.23549817502498627,
      "learning_rate": 5e-05,
      "loss": 1.6724,
      "step": 2298
    },
    {
      "epoch": 0.2854836706817335,
      "grad_norm": 0.44914984703063965,
      "learning_rate": 5e-05,
      "loss": 1.869,
      "step": 2299
    },
    {
      "epoch": 0.28560784800695393,
      "grad_norm": 0.25877654552459717,
      "learning_rate": 5e-05,
      "loss": 1.8464,
      "step": 2300
    },
    {
      "epoch": 0.28573202533217434,
      "grad_norm": 0.4616888165473938,
      "learning_rate": 5e-05,
      "loss": 3.1038,
      "step": 2301
    },
    {
      "epoch": 0.28585620265739475,
      "grad_norm": 0.23121219873428345,
      "learning_rate": 5e-05,
      "loss": 1.569,
      "step": 2302
    },
    {
      "epoch": 0.28598037998261516,
      "grad_norm": 0.24577587842941284,
      "learning_rate": 5e-05,
      "loss": 1.946,
      "step": 2303
    },
    {
      "epoch": 0.28610455730783557,
      "grad_norm": 0.23375777900218964,
      "learning_rate": 5e-05,
      "loss": 1.6012,
      "step": 2304
    },
    {
      "epoch": 0.286228734633056,
      "grad_norm": 0.3729497492313385,
      "learning_rate": 5e-05,
      "loss": 2.2228,
      "step": 2305
    },
    {
      "epoch": 0.28635291195827645,
      "grad_norm": 0.26911404728889465,
      "learning_rate": 5e-05,
      "loss": 1.9809,
      "step": 2306
    },
    {
      "epoch": 0.28647708928349686,
      "grad_norm": 0.22182457149028778,
      "learning_rate": 5e-05,
      "loss": 1.6623,
      "step": 2307
    },
    {
      "epoch": 0.28660126660871726,
      "grad_norm": 0.25709474086761475,
      "learning_rate": 5e-05,
      "loss": 2.0334,
      "step": 2308
    },
    {
      "epoch": 0.2867254439339377,
      "grad_norm": 0.3356473445892334,
      "learning_rate": 5e-05,
      "loss": 2.1495,
      "step": 2309
    },
    {
      "epoch": 0.2868496212591581,
      "grad_norm": 0.39738699793815613,
      "learning_rate": 5e-05,
      "loss": 2.4122,
      "step": 2310
    },
    {
      "epoch": 0.2869737985843785,
      "grad_norm": 0.4199839234352112,
      "learning_rate": 5e-05,
      "loss": 2.985,
      "step": 2311
    },
    {
      "epoch": 0.2870979759095989,
      "grad_norm": 0.30248400568962097,
      "learning_rate": 5e-05,
      "loss": 1.7053,
      "step": 2312
    },
    {
      "epoch": 0.2872221532348193,
      "grad_norm": 0.2530093491077423,
      "learning_rate": 5e-05,
      "loss": 2.0484,
      "step": 2313
    },
    {
      "epoch": 0.2873463305600397,
      "grad_norm": 0.30588701367378235,
      "learning_rate": 5e-05,
      "loss": 2.1618,
      "step": 2314
    },
    {
      "epoch": 0.28747050788526013,
      "grad_norm": 0.29306522011756897,
      "learning_rate": 5e-05,
      "loss": 2.1627,
      "step": 2315
    },
    {
      "epoch": 0.2875946852104806,
      "grad_norm": 0.26126742362976074,
      "learning_rate": 5e-05,
      "loss": 2.5206,
      "step": 2316
    },
    {
      "epoch": 0.287718862535701,
      "grad_norm": 0.2552174925804138,
      "learning_rate": 5e-05,
      "loss": 1.7767,
      "step": 2317
    },
    {
      "epoch": 0.2878430398609214,
      "grad_norm": 0.27038562297821045,
      "learning_rate": 5e-05,
      "loss": 2.0549,
      "step": 2318
    },
    {
      "epoch": 0.2879672171861418,
      "grad_norm": 0.25663262605667114,
      "learning_rate": 5e-05,
      "loss": 2.0929,
      "step": 2319
    },
    {
      "epoch": 0.28809139451136223,
      "grad_norm": 0.23965750634670258,
      "learning_rate": 5e-05,
      "loss": 1.8899,
      "step": 2320
    },
    {
      "epoch": 0.28821557183658264,
      "grad_norm": 0.26159292459487915,
      "learning_rate": 5e-05,
      "loss": 1.8408,
      "step": 2321
    },
    {
      "epoch": 0.28833974916180305,
      "grad_norm": 0.29132992029190063,
      "learning_rate": 5e-05,
      "loss": 2.3826,
      "step": 2322
    },
    {
      "epoch": 0.28846392648702346,
      "grad_norm": 0.2629832625389099,
      "learning_rate": 5e-05,
      "loss": 2.0558,
      "step": 2323
    },
    {
      "epoch": 0.28858810381224387,
      "grad_norm": 0.24224704504013062,
      "learning_rate": 5e-05,
      "loss": 1.9818,
      "step": 2324
    },
    {
      "epoch": 0.2887122811374643,
      "grad_norm": 0.4076092541217804,
      "learning_rate": 5e-05,
      "loss": 2.5366,
      "step": 2325
    },
    {
      "epoch": 0.2888364584626847,
      "grad_norm": 0.24215994775295258,
      "learning_rate": 5e-05,
      "loss": 1.8944,
      "step": 2326
    },
    {
      "epoch": 0.28896063578790515,
      "grad_norm": 0.23523783683776855,
      "learning_rate": 5e-05,
      "loss": 1.7512,
      "step": 2327
    },
    {
      "epoch": 0.28908481311312556,
      "grad_norm": 0.2690104842185974,
      "learning_rate": 5e-05,
      "loss": 1.7761,
      "step": 2328
    },
    {
      "epoch": 0.28920899043834597,
      "grad_norm": 0.2651064097881317,
      "learning_rate": 5e-05,
      "loss": 1.8072,
      "step": 2329
    },
    {
      "epoch": 0.2893331677635664,
      "grad_norm": 0.24765053391456604,
      "learning_rate": 5e-05,
      "loss": 1.9649,
      "step": 2330
    },
    {
      "epoch": 0.2894573450887868,
      "grad_norm": 0.4669734239578247,
      "learning_rate": 5e-05,
      "loss": 2.5411,
      "step": 2331
    },
    {
      "epoch": 0.2895815224140072,
      "grad_norm": 0.24417367577552795,
      "learning_rate": 5e-05,
      "loss": 1.6564,
      "step": 2332
    },
    {
      "epoch": 0.2897056997392276,
      "grad_norm": 0.2411481738090515,
      "learning_rate": 5e-05,
      "loss": 1.7386,
      "step": 2333
    },
    {
      "epoch": 0.289829877064448,
      "grad_norm": 0.23474077880382538,
      "learning_rate": 5e-05,
      "loss": 1.7429,
      "step": 2334
    },
    {
      "epoch": 0.2899540543896684,
      "grad_norm": 0.2852562963962555,
      "learning_rate": 5e-05,
      "loss": 1.9652,
      "step": 2335
    },
    {
      "epoch": 0.29007823171488883,
      "grad_norm": 0.2371487021446228,
      "learning_rate": 5e-05,
      "loss": 1.8221,
      "step": 2336
    },
    {
      "epoch": 0.2902024090401093,
      "grad_norm": 0.2400091588497162,
      "learning_rate": 5e-05,
      "loss": 1.9796,
      "step": 2337
    },
    {
      "epoch": 0.2903265863653297,
      "grad_norm": 0.23056505620479584,
      "learning_rate": 5e-05,
      "loss": 2.0365,
      "step": 2338
    },
    {
      "epoch": 0.2904507636905501,
      "grad_norm": 0.2592349648475647,
      "learning_rate": 5e-05,
      "loss": 2.2178,
      "step": 2339
    },
    {
      "epoch": 0.2905749410157705,
      "grad_norm": 0.24092377722263336,
      "learning_rate": 5e-05,
      "loss": 1.9342,
      "step": 2340
    },
    {
      "epoch": 0.29069911834099094,
      "grad_norm": 0.28325721621513367,
      "learning_rate": 5e-05,
      "loss": 2.1013,
      "step": 2341
    },
    {
      "epoch": 0.29082329566621135,
      "grad_norm": 0.23552647233009338,
      "learning_rate": 5e-05,
      "loss": 1.8412,
      "step": 2342
    },
    {
      "epoch": 0.29094747299143175,
      "grad_norm": 0.331377238035202,
      "learning_rate": 5e-05,
      "loss": 2.1674,
      "step": 2343
    },
    {
      "epoch": 0.29107165031665216,
      "grad_norm": 0.23094972968101501,
      "learning_rate": 5e-05,
      "loss": 1.774,
      "step": 2344
    },
    {
      "epoch": 0.2911958276418726,
      "grad_norm": 0.2975688576698303,
      "learning_rate": 5e-05,
      "loss": 2.5615,
      "step": 2345
    },
    {
      "epoch": 0.291320004967093,
      "grad_norm": 0.23471659421920776,
      "learning_rate": 5e-05,
      "loss": 1.6161,
      "step": 2346
    },
    {
      "epoch": 0.29144418229231345,
      "grad_norm": 0.26555222272872925,
      "learning_rate": 5e-05,
      "loss": 2.0333,
      "step": 2347
    },
    {
      "epoch": 0.29156835961753386,
      "grad_norm": 0.2195957899093628,
      "learning_rate": 5e-05,
      "loss": 1.7668,
      "step": 2348
    },
    {
      "epoch": 0.29169253694275427,
      "grad_norm": 0.2603464424610138,
      "learning_rate": 5e-05,
      "loss": 2.3325,
      "step": 2349
    },
    {
      "epoch": 0.2918167142679747,
      "grad_norm": 0.23768115043640137,
      "learning_rate": 5e-05,
      "loss": 2.135,
      "step": 2350
    },
    {
      "epoch": 0.2919408915931951,
      "grad_norm": 0.2528925836086273,
      "learning_rate": 5e-05,
      "loss": 2.0161,
      "step": 2351
    },
    {
      "epoch": 0.2920650689184155,
      "grad_norm": 0.24497003853321075,
      "learning_rate": 5e-05,
      "loss": 2.0842,
      "step": 2352
    },
    {
      "epoch": 0.2921892462436359,
      "grad_norm": 0.22991429269313812,
      "learning_rate": 5e-05,
      "loss": 1.734,
      "step": 2353
    },
    {
      "epoch": 0.2923134235688563,
      "grad_norm": 0.22641606628894806,
      "learning_rate": 5e-05,
      "loss": 1.8019,
      "step": 2354
    },
    {
      "epoch": 0.2924376008940767,
      "grad_norm": 0.3363061845302582,
      "learning_rate": 5e-05,
      "loss": 3.125,
      "step": 2355
    },
    {
      "epoch": 0.29256177821929713,
      "grad_norm": 0.23606544733047485,
      "learning_rate": 5e-05,
      "loss": 1.703,
      "step": 2356
    },
    {
      "epoch": 0.2926859555445176,
      "grad_norm": 0.24433138966560364,
      "learning_rate": 5e-05,
      "loss": 1.7999,
      "step": 2357
    },
    {
      "epoch": 0.292810132869738,
      "grad_norm": 0.2222929149866104,
      "learning_rate": 5e-05,
      "loss": 1.8295,
      "step": 2358
    },
    {
      "epoch": 0.2929343101949584,
      "grad_norm": 0.24050135910511017,
      "learning_rate": 5e-05,
      "loss": 2.1841,
      "step": 2359
    },
    {
      "epoch": 0.2930584875201788,
      "grad_norm": 0.30043894052505493,
      "learning_rate": 5e-05,
      "loss": 2.293,
      "step": 2360
    },
    {
      "epoch": 0.29318266484539923,
      "grad_norm": 0.22937791049480438,
      "learning_rate": 5e-05,
      "loss": 1.8276,
      "step": 2361
    },
    {
      "epoch": 0.29330684217061964,
      "grad_norm": 0.24394236505031586,
      "learning_rate": 5e-05,
      "loss": 1.5651,
      "step": 2362
    },
    {
      "epoch": 0.29343101949584005,
      "grad_norm": 0.22702492773532867,
      "learning_rate": 5e-05,
      "loss": 1.7366,
      "step": 2363
    },
    {
      "epoch": 0.29355519682106046,
      "grad_norm": 0.24780035018920898,
      "learning_rate": 5e-05,
      "loss": 1.9111,
      "step": 2364
    },
    {
      "epoch": 0.29367937414628087,
      "grad_norm": 0.23855777084827423,
      "learning_rate": 5e-05,
      "loss": 1.7977,
      "step": 2365
    },
    {
      "epoch": 0.2938035514715013,
      "grad_norm": 0.2370656579732895,
      "learning_rate": 5e-05,
      "loss": 1.6724,
      "step": 2366
    },
    {
      "epoch": 0.29392772879672174,
      "grad_norm": 0.23753634095191956,
      "learning_rate": 5e-05,
      "loss": 1.8294,
      "step": 2367
    },
    {
      "epoch": 0.29405190612194215,
      "grad_norm": 0.2513243854045868,
      "learning_rate": 5e-05,
      "loss": 2.1125,
      "step": 2368
    },
    {
      "epoch": 0.29417608344716256,
      "grad_norm": 0.2436743527650833,
      "learning_rate": 5e-05,
      "loss": 1.9807,
      "step": 2369
    },
    {
      "epoch": 0.29430026077238297,
      "grad_norm": 0.2230265587568283,
      "learning_rate": 5e-05,
      "loss": 1.8254,
      "step": 2370
    },
    {
      "epoch": 0.2944244380976034,
      "grad_norm": 0.24146917462348938,
      "learning_rate": 5e-05,
      "loss": 1.9186,
      "step": 2371
    },
    {
      "epoch": 0.2945486154228238,
      "grad_norm": 0.2423929125070572,
      "learning_rate": 5e-05,
      "loss": 1.8563,
      "step": 2372
    },
    {
      "epoch": 0.2946727927480442,
      "grad_norm": 0.5293620228767395,
      "learning_rate": 5e-05,
      "loss": 3.2232,
      "step": 2373
    },
    {
      "epoch": 0.2947969700732646,
      "grad_norm": 0.47385889291763306,
      "learning_rate": 5e-05,
      "loss": 3.2621,
      "step": 2374
    },
    {
      "epoch": 0.294921147398485,
      "grad_norm": 0.2932327091693878,
      "learning_rate": 5e-05,
      "loss": 2.1003,
      "step": 2375
    },
    {
      "epoch": 0.2950453247237054,
      "grad_norm": 0.3463650941848755,
      "learning_rate": 5e-05,
      "loss": 2.9055,
      "step": 2376
    },
    {
      "epoch": 0.2951695020489259,
      "grad_norm": 0.21354363858699799,
      "learning_rate": 5e-05,
      "loss": 1.7144,
      "step": 2377
    },
    {
      "epoch": 0.2952936793741463,
      "grad_norm": 0.36624735593795776,
      "learning_rate": 5e-05,
      "loss": 2.5151,
      "step": 2378
    },
    {
      "epoch": 0.2954178566993667,
      "grad_norm": 0.26084357500076294,
      "learning_rate": 5e-05,
      "loss": 1.8736,
      "step": 2379
    },
    {
      "epoch": 0.2955420340245871,
      "grad_norm": 0.23558272421360016,
      "learning_rate": 5e-05,
      "loss": 1.7314,
      "step": 2380
    },
    {
      "epoch": 0.29566621134980753,
      "grad_norm": 0.23063595592975616,
      "learning_rate": 5e-05,
      "loss": 1.5839,
      "step": 2381
    },
    {
      "epoch": 0.29579038867502794,
      "grad_norm": 0.2673996090888977,
      "learning_rate": 5e-05,
      "loss": 2.167,
      "step": 2382
    },
    {
      "epoch": 0.29591456600024835,
      "grad_norm": 0.2304811179637909,
      "learning_rate": 5e-05,
      "loss": 1.6322,
      "step": 2383
    },
    {
      "epoch": 0.29603874332546876,
      "grad_norm": 0.23837745189666748,
      "learning_rate": 5e-05,
      "loss": 1.9747,
      "step": 2384
    },
    {
      "epoch": 0.29616292065068917,
      "grad_norm": 0.23210571706295013,
      "learning_rate": 5e-05,
      "loss": 1.6524,
      "step": 2385
    },
    {
      "epoch": 0.2962870979759096,
      "grad_norm": 0.23646484315395355,
      "learning_rate": 5e-05,
      "loss": 1.9154,
      "step": 2386
    },
    {
      "epoch": 0.29641127530113004,
      "grad_norm": 0.23370255529880524,
      "learning_rate": 5e-05,
      "loss": 1.7822,
      "step": 2387
    },
    {
      "epoch": 0.29653545262635045,
      "grad_norm": 0.24929741024971008,
      "learning_rate": 5e-05,
      "loss": 1.8317,
      "step": 2388
    },
    {
      "epoch": 0.29665962995157086,
      "grad_norm": 0.29031649231910706,
      "learning_rate": 5e-05,
      "loss": 2.4248,
      "step": 2389
    },
    {
      "epoch": 0.29678380727679127,
      "grad_norm": 0.3389052748680115,
      "learning_rate": 5e-05,
      "loss": 2.7452,
      "step": 2390
    },
    {
      "epoch": 0.2969079846020117,
      "grad_norm": 0.25351041555404663,
      "learning_rate": 5e-05,
      "loss": 1.8065,
      "step": 2391
    },
    {
      "epoch": 0.2970321619272321,
      "grad_norm": 0.2346285581588745,
      "learning_rate": 5e-05,
      "loss": 1.8006,
      "step": 2392
    },
    {
      "epoch": 0.2971563392524525,
      "grad_norm": 0.2813652753829956,
      "learning_rate": 5e-05,
      "loss": 2.1146,
      "step": 2393
    },
    {
      "epoch": 0.2972805165776729,
      "grad_norm": 0.43128257989883423,
      "learning_rate": 5e-05,
      "loss": 2.9285,
      "step": 2394
    },
    {
      "epoch": 0.2974046939028933,
      "grad_norm": 0.25530242919921875,
      "learning_rate": 5e-05,
      "loss": 1.9098,
      "step": 2395
    },
    {
      "epoch": 0.2975288712281137,
      "grad_norm": 0.24373075366020203,
      "learning_rate": 5e-05,
      "loss": 1.841,
      "step": 2396
    },
    {
      "epoch": 0.2976530485533342,
      "grad_norm": 0.24467530846595764,
      "learning_rate": 5e-05,
      "loss": 1.8234,
      "step": 2397
    },
    {
      "epoch": 0.2977772258785546,
      "grad_norm": 0.2736798822879791,
      "learning_rate": 5e-05,
      "loss": 2.1031,
      "step": 2398
    },
    {
      "epoch": 0.297901403203775,
      "grad_norm": 0.3020813763141632,
      "learning_rate": 5e-05,
      "loss": 2.7447,
      "step": 2399
    },
    {
      "epoch": 0.2980255805289954,
      "grad_norm": 0.3021032512187958,
      "learning_rate": 5e-05,
      "loss": 2.6588,
      "step": 2400
    },
    {
      "epoch": 0.2981497578542158,
      "grad_norm": 0.23449717462062836,
      "learning_rate": 5e-05,
      "loss": 1.9597,
      "step": 2401
    },
    {
      "epoch": 0.29827393517943623,
      "grad_norm": 0.2941332757472992,
      "learning_rate": 5e-05,
      "loss": 1.8493,
      "step": 2402
    },
    {
      "epoch": 0.29839811250465664,
      "grad_norm": 0.27627015113830566,
      "learning_rate": 5e-05,
      "loss": 1.7745,
      "step": 2403
    },
    {
      "epoch": 0.29852228982987705,
      "grad_norm": 0.24577543139457703,
      "learning_rate": 5e-05,
      "loss": 1.6863,
      "step": 2404
    },
    {
      "epoch": 0.29864646715509746,
      "grad_norm": 0.46722403168678284,
      "learning_rate": 5e-05,
      "loss": 3.2409,
      "step": 2405
    },
    {
      "epoch": 0.29877064448031787,
      "grad_norm": 0.26553261280059814,
      "learning_rate": 5e-05,
      "loss": 1.9566,
      "step": 2406
    },
    {
      "epoch": 0.29889482180553834,
      "grad_norm": 0.22868528962135315,
      "learning_rate": 5e-05,
      "loss": 1.7161,
      "step": 2407
    },
    {
      "epoch": 0.29901899913075874,
      "grad_norm": 0.2631630599498749,
      "learning_rate": 5e-05,
      "loss": 1.9372,
      "step": 2408
    },
    {
      "epoch": 0.29914317645597915,
      "grad_norm": 0.2706388831138611,
      "learning_rate": 5e-05,
      "loss": 1.9286,
      "step": 2409
    },
    {
      "epoch": 0.29926735378119956,
      "grad_norm": 0.24649964272975922,
      "learning_rate": 5e-05,
      "loss": 1.849,
      "step": 2410
    },
    {
      "epoch": 0.29939153110642,
      "grad_norm": 0.3356122672557831,
      "learning_rate": 5e-05,
      "loss": 1.9797,
      "step": 2411
    },
    {
      "epoch": 0.2995157084316404,
      "grad_norm": 0.25064951181411743,
      "learning_rate": 5e-05,
      "loss": 1.7351,
      "step": 2412
    },
    {
      "epoch": 0.2996398857568608,
      "grad_norm": 0.33403944969177246,
      "learning_rate": 5e-05,
      "loss": 2.1686,
      "step": 2413
    },
    {
      "epoch": 0.2997640630820812,
      "grad_norm": 0.2619416415691376,
      "learning_rate": 5e-05,
      "loss": 1.9199,
      "step": 2414
    },
    {
      "epoch": 0.2998882404073016,
      "grad_norm": 0.24863988161087036,
      "learning_rate": 5e-05,
      "loss": 1.9177,
      "step": 2415
    },
    {
      "epoch": 0.300012417732522,
      "grad_norm": 0.2544436454772949,
      "learning_rate": 5e-05,
      "loss": 1.8118,
      "step": 2416
    },
    {
      "epoch": 0.3001365950577425,
      "grad_norm": 0.25741347670555115,
      "learning_rate": 5e-05,
      "loss": 1.9319,
      "step": 2417
    },
    {
      "epoch": 0.3002607723829629,
      "grad_norm": 0.3917241096496582,
      "learning_rate": 5e-05,
      "loss": 3.2297,
      "step": 2418
    },
    {
      "epoch": 0.3003849497081833,
      "grad_norm": 0.25496190786361694,
      "learning_rate": 5e-05,
      "loss": 1.6107,
      "step": 2419
    },
    {
      "epoch": 0.3005091270334037,
      "grad_norm": 0.23908790946006775,
      "learning_rate": 5e-05,
      "loss": 1.8478,
      "step": 2420
    },
    {
      "epoch": 0.3006333043586241,
      "grad_norm": 0.2733415365219116,
      "learning_rate": 5e-05,
      "loss": 2.0505,
      "step": 2421
    },
    {
      "epoch": 0.30075748168384453,
      "grad_norm": 0.23934225738048553,
      "learning_rate": 5e-05,
      "loss": 2.0059,
      "step": 2422
    },
    {
      "epoch": 0.30088165900906494,
      "grad_norm": 0.23490947484970093,
      "learning_rate": 5e-05,
      "loss": 1.8443,
      "step": 2423
    },
    {
      "epoch": 0.30100583633428535,
      "grad_norm": 0.23969963192939758,
      "learning_rate": 5e-05,
      "loss": 1.9726,
      "step": 2424
    },
    {
      "epoch": 0.30113001365950576,
      "grad_norm": 0.24457332491874695,
      "learning_rate": 5e-05,
      "loss": 1.8928,
      "step": 2425
    },
    {
      "epoch": 0.30125419098472617,
      "grad_norm": 0.632684051990509,
      "learning_rate": 5e-05,
      "loss": 3.0825,
      "step": 2426
    },
    {
      "epoch": 0.3013783683099466,
      "grad_norm": 0.23030449450016022,
      "learning_rate": 5e-05,
      "loss": 1.9712,
      "step": 2427
    },
    {
      "epoch": 0.30150254563516704,
      "grad_norm": 0.27462518215179443,
      "learning_rate": 5e-05,
      "loss": 2.1805,
      "step": 2428
    },
    {
      "epoch": 0.30162672296038745,
      "grad_norm": 0.2525634169578552,
      "learning_rate": 5e-05,
      "loss": 1.8778,
      "step": 2429
    },
    {
      "epoch": 0.30175090028560786,
      "grad_norm": 0.3097149431705475,
      "learning_rate": 5e-05,
      "loss": 2.1009,
      "step": 2430
    },
    {
      "epoch": 0.30187507761082827,
      "grad_norm": 0.27387306094169617,
      "learning_rate": 5e-05,
      "loss": 2.0801,
      "step": 2431
    },
    {
      "epoch": 0.3019992549360487,
      "grad_norm": 0.23255454003810883,
      "learning_rate": 5e-05,
      "loss": 1.7646,
      "step": 2432
    },
    {
      "epoch": 0.3021234322612691,
      "grad_norm": 0.26013875007629395,
      "learning_rate": 5e-05,
      "loss": 1.9605,
      "step": 2433
    },
    {
      "epoch": 0.3022476095864895,
      "grad_norm": 0.242452934384346,
      "learning_rate": 5e-05,
      "loss": 1.9056,
      "step": 2434
    },
    {
      "epoch": 0.3023717869117099,
      "grad_norm": 0.2807671129703522,
      "learning_rate": 5e-05,
      "loss": 2.0907,
      "step": 2435
    },
    {
      "epoch": 0.3024959642369303,
      "grad_norm": 0.2769166827201843,
      "learning_rate": 5e-05,
      "loss": 2.196,
      "step": 2436
    },
    {
      "epoch": 0.3026201415621507,
      "grad_norm": 0.2445501834154129,
      "learning_rate": 5e-05,
      "loss": 2.1329,
      "step": 2437
    },
    {
      "epoch": 0.3027443188873712,
      "grad_norm": 0.23443907499313354,
      "learning_rate": 5e-05,
      "loss": 1.8675,
      "step": 2438
    },
    {
      "epoch": 0.3028684962125916,
      "grad_norm": 0.23849956691265106,
      "learning_rate": 5e-05,
      "loss": 1.7111,
      "step": 2439
    },
    {
      "epoch": 0.302992673537812,
      "grad_norm": 0.23851902782917023,
      "learning_rate": 5e-05,
      "loss": 1.9384,
      "step": 2440
    },
    {
      "epoch": 0.3031168508630324,
      "grad_norm": 0.34767386317253113,
      "learning_rate": 5e-05,
      "loss": 3.1742,
      "step": 2441
    },
    {
      "epoch": 0.3032410281882528,
      "grad_norm": 0.2418692260980606,
      "learning_rate": 5e-05,
      "loss": 1.916,
      "step": 2442
    },
    {
      "epoch": 0.30336520551347324,
      "grad_norm": 0.27822381258010864,
      "learning_rate": 5e-05,
      "loss": 2.385,
      "step": 2443
    },
    {
      "epoch": 0.30348938283869364,
      "grad_norm": 0.262796014547348,
      "learning_rate": 5e-05,
      "loss": 1.9772,
      "step": 2444
    },
    {
      "epoch": 0.30361356016391405,
      "grad_norm": 0.24244970083236694,
      "learning_rate": 5e-05,
      "loss": 1.6814,
      "step": 2445
    },
    {
      "epoch": 0.30373773748913446,
      "grad_norm": 0.4442673325538635,
      "learning_rate": 5e-05,
      "loss": 2.0069,
      "step": 2446
    },
    {
      "epoch": 0.30386191481435487,
      "grad_norm": 0.23442882299423218,
      "learning_rate": 5e-05,
      "loss": 1.8279,
      "step": 2447
    },
    {
      "epoch": 0.30398609213957534,
      "grad_norm": 0.2544330358505249,
      "learning_rate": 5e-05,
      "loss": 2.1364,
      "step": 2448
    },
    {
      "epoch": 0.30411026946479575,
      "grad_norm": 0.3845314383506775,
      "learning_rate": 5e-05,
      "loss": 3.0167,
      "step": 2449
    },
    {
      "epoch": 0.30423444679001616,
      "grad_norm": 0.2309444397687912,
      "learning_rate": 5e-05,
      "loss": 2.0023,
      "step": 2450
    },
    {
      "epoch": 0.30435862411523656,
      "grad_norm": 0.22534552216529846,
      "learning_rate": 5e-05,
      "loss": 1.7266,
      "step": 2451
    },
    {
      "epoch": 0.304482801440457,
      "grad_norm": 0.23042988777160645,
      "learning_rate": 5e-05,
      "loss": 1.7444,
      "step": 2452
    },
    {
      "epoch": 0.3046069787656774,
      "grad_norm": 0.29422980546951294,
      "learning_rate": 5e-05,
      "loss": 2.3088,
      "step": 2453
    },
    {
      "epoch": 0.3047311560908978,
      "grad_norm": 0.24359145760536194,
      "learning_rate": 5e-05,
      "loss": 1.939,
      "step": 2454
    },
    {
      "epoch": 0.3048553334161182,
      "grad_norm": 0.23669804632663727,
      "learning_rate": 5e-05,
      "loss": 1.6311,
      "step": 2455
    },
    {
      "epoch": 0.3049795107413386,
      "grad_norm": 0.22479701042175293,
      "learning_rate": 5e-05,
      "loss": 1.4663,
      "step": 2456
    },
    {
      "epoch": 0.305103688066559,
      "grad_norm": 0.29498857259750366,
      "learning_rate": 5e-05,
      "loss": 2.3553,
      "step": 2457
    },
    {
      "epoch": 0.3052278653917795,
      "grad_norm": 0.2492772787809372,
      "learning_rate": 5e-05,
      "loss": 1.9945,
      "step": 2458
    },
    {
      "epoch": 0.3053520427169999,
      "grad_norm": 0.2304142266511917,
      "learning_rate": 5e-05,
      "loss": 1.923,
      "step": 2459
    },
    {
      "epoch": 0.3054762200422203,
      "grad_norm": 0.23694701492786407,
      "learning_rate": 5e-05,
      "loss": 1.7034,
      "step": 2460
    },
    {
      "epoch": 0.3056003973674407,
      "grad_norm": 0.260919988155365,
      "learning_rate": 5e-05,
      "loss": 2.0516,
      "step": 2461
    },
    {
      "epoch": 0.3057245746926611,
      "grad_norm": 0.22292177379131317,
      "learning_rate": 5e-05,
      "loss": 1.7469,
      "step": 2462
    },
    {
      "epoch": 0.30584875201788153,
      "grad_norm": 0.3954099416732788,
      "learning_rate": 5e-05,
      "loss": 2.5796,
      "step": 2463
    },
    {
      "epoch": 0.30597292934310194,
      "grad_norm": 0.39405757188796997,
      "learning_rate": 5e-05,
      "loss": 3.0105,
      "step": 2464
    },
    {
      "epoch": 0.30609710666832235,
      "grad_norm": 0.26535579562187195,
      "learning_rate": 5e-05,
      "loss": 1.7596,
      "step": 2465
    },
    {
      "epoch": 0.30622128399354276,
      "grad_norm": 0.316542387008667,
      "learning_rate": 5e-05,
      "loss": 2.0847,
      "step": 2466
    },
    {
      "epoch": 0.30634546131876317,
      "grad_norm": 0.2840765416622162,
      "learning_rate": 5e-05,
      "loss": 1.8332,
      "step": 2467
    },
    {
      "epoch": 0.30646963864398363,
      "grad_norm": 0.2294183373451233,
      "learning_rate": 5e-05,
      "loss": 1.7689,
      "step": 2468
    },
    {
      "epoch": 0.30659381596920404,
      "grad_norm": 0.31016889214515686,
      "learning_rate": 5e-05,
      "loss": 2.3342,
      "step": 2469
    },
    {
      "epoch": 0.30671799329442445,
      "grad_norm": 0.5072765350341797,
      "learning_rate": 5e-05,
      "loss": 2.7014,
      "step": 2470
    },
    {
      "epoch": 0.30684217061964486,
      "grad_norm": 0.26482972502708435,
      "learning_rate": 5e-05,
      "loss": 1.6224,
      "step": 2471
    },
    {
      "epoch": 0.30696634794486527,
      "grad_norm": 0.23487739264965057,
      "learning_rate": 5e-05,
      "loss": 1.7675,
      "step": 2472
    },
    {
      "epoch": 0.3070905252700857,
      "grad_norm": 0.24181108176708221,
      "learning_rate": 5e-05,
      "loss": 1.6487,
      "step": 2473
    },
    {
      "epoch": 0.3072147025953061,
      "grad_norm": 0.2593574821949005,
      "learning_rate": 5e-05,
      "loss": 2.0773,
      "step": 2474
    },
    {
      "epoch": 0.3073388799205265,
      "grad_norm": 0.25183579325675964,
      "learning_rate": 5e-05,
      "loss": 1.9005,
      "step": 2475
    },
    {
      "epoch": 0.3074630572457469,
      "grad_norm": 0.30021190643310547,
      "learning_rate": 5e-05,
      "loss": 1.8803,
      "step": 2476
    },
    {
      "epoch": 0.3075872345709673,
      "grad_norm": 0.3121073842048645,
      "learning_rate": 5e-05,
      "loss": 2.5081,
      "step": 2477
    },
    {
      "epoch": 0.3077114118961878,
      "grad_norm": 0.293508917093277,
      "learning_rate": 5e-05,
      "loss": 2.1715,
      "step": 2478
    },
    {
      "epoch": 0.3078355892214082,
      "grad_norm": 0.264616996049881,
      "learning_rate": 5e-05,
      "loss": 2.1911,
      "step": 2479
    },
    {
      "epoch": 0.3079597665466286,
      "grad_norm": 0.23609627783298492,
      "learning_rate": 5e-05,
      "loss": 1.858,
      "step": 2480
    },
    {
      "epoch": 0.308083943871849,
      "grad_norm": 0.24882352352142334,
      "learning_rate": 5e-05,
      "loss": 2.0246,
      "step": 2481
    },
    {
      "epoch": 0.3082081211970694,
      "grad_norm": 0.2793102264404297,
      "learning_rate": 5e-05,
      "loss": 2.5636,
      "step": 2482
    },
    {
      "epoch": 0.3083322985222898,
      "grad_norm": 0.34422752261161804,
      "learning_rate": 5e-05,
      "loss": 2.8102,
      "step": 2483
    },
    {
      "epoch": 0.30845647584751024,
      "grad_norm": 0.512165367603302,
      "learning_rate": 5e-05,
      "loss": 2.8471,
      "step": 2484
    },
    {
      "epoch": 0.30858065317273065,
      "grad_norm": 0.27156296372413635,
      "learning_rate": 5e-05,
      "loss": 2.0946,
      "step": 2485
    },
    {
      "epoch": 0.30870483049795105,
      "grad_norm": 0.5863181352615356,
      "learning_rate": 5e-05,
      "loss": 3.4516,
      "step": 2486
    },
    {
      "epoch": 0.30882900782317146,
      "grad_norm": 0.263992577791214,
      "learning_rate": 5e-05,
      "loss": 2.0513,
      "step": 2487
    },
    {
      "epoch": 0.30895318514839193,
      "grad_norm": 0.23446765542030334,
      "learning_rate": 5e-05,
      "loss": 1.9179,
      "step": 2488
    },
    {
      "epoch": 0.30907736247361234,
      "grad_norm": 0.22363054752349854,
      "learning_rate": 5e-05,
      "loss": 1.6051,
      "step": 2489
    },
    {
      "epoch": 0.30920153979883275,
      "grad_norm": 0.27542364597320557,
      "learning_rate": 5e-05,
      "loss": 2.1036,
      "step": 2490
    },
    {
      "epoch": 0.30932571712405316,
      "grad_norm": 0.2588249444961548,
      "learning_rate": 5e-05,
      "loss": 2.2362,
      "step": 2491
    },
    {
      "epoch": 0.30944989444927357,
      "grad_norm": 0.2412181794643402,
      "learning_rate": 5e-05,
      "loss": 1.7954,
      "step": 2492
    },
    {
      "epoch": 0.309574071774494,
      "grad_norm": 0.2897854745388031,
      "learning_rate": 5e-05,
      "loss": 2.0443,
      "step": 2493
    },
    {
      "epoch": 0.3096982490997144,
      "grad_norm": 0.28221622109413147,
      "learning_rate": 5e-05,
      "loss": 2.2036,
      "step": 2494
    },
    {
      "epoch": 0.3098224264249348,
      "grad_norm": 0.48167553544044495,
      "learning_rate": 5e-05,
      "loss": 3.063,
      "step": 2495
    },
    {
      "epoch": 0.3099466037501552,
      "grad_norm": 0.3016217052936554,
      "learning_rate": 5e-05,
      "loss": 2.156,
      "step": 2496
    },
    {
      "epoch": 0.3100707810753756,
      "grad_norm": 0.24846698343753815,
      "learning_rate": 5e-05,
      "loss": 2.0878,
      "step": 2497
    },
    {
      "epoch": 0.3101949584005961,
      "grad_norm": 0.3203471899032593,
      "learning_rate": 5e-05,
      "loss": 2.0927,
      "step": 2498
    },
    {
      "epoch": 0.3103191357258165,
      "grad_norm": 0.22517484426498413,
      "learning_rate": 5e-05,
      "loss": 1.7774,
      "step": 2499
    },
    {
      "epoch": 0.3104433130510369,
      "grad_norm": 0.24136750400066376,
      "learning_rate": 5e-05,
      "loss": 1.9474,
      "step": 2500
    },
    {
      "epoch": 0.3105674903762573,
      "grad_norm": 0.265752911567688,
      "learning_rate": 5e-05,
      "loss": 1.9241,
      "step": 2501
    },
    {
      "epoch": 0.3106916677014777,
      "grad_norm": 0.2521585524082184,
      "learning_rate": 5e-05,
      "loss": 2.0642,
      "step": 2502
    },
    {
      "epoch": 0.3108158450266981,
      "grad_norm": 0.26665449142456055,
      "learning_rate": 5e-05,
      "loss": 1.9027,
      "step": 2503
    },
    {
      "epoch": 0.31094002235191853,
      "grad_norm": 0.2607811987400055,
      "learning_rate": 5e-05,
      "loss": 2.3683,
      "step": 2504
    },
    {
      "epoch": 0.31106419967713894,
      "grad_norm": 0.2730054557323456,
      "learning_rate": 5e-05,
      "loss": 2.1716,
      "step": 2505
    },
    {
      "epoch": 0.31118837700235935,
      "grad_norm": 0.22732530534267426,
      "learning_rate": 5e-05,
      "loss": 1.503,
      "step": 2506
    },
    {
      "epoch": 0.31131255432757976,
      "grad_norm": 0.23393070697784424,
      "learning_rate": 5e-05,
      "loss": 1.7821,
      "step": 2507
    },
    {
      "epoch": 0.3114367316528002,
      "grad_norm": 0.293963760137558,
      "learning_rate": 5e-05,
      "loss": 2.6656,
      "step": 2508
    },
    {
      "epoch": 0.31156090897802063,
      "grad_norm": 0.254947304725647,
      "learning_rate": 5e-05,
      "loss": 1.9871,
      "step": 2509
    },
    {
      "epoch": 0.31168508630324104,
      "grad_norm": 0.24850718677043915,
      "learning_rate": 5e-05,
      "loss": 1.9521,
      "step": 2510
    },
    {
      "epoch": 0.31180926362846145,
      "grad_norm": 0.2208259552717209,
      "learning_rate": 5e-05,
      "loss": 1.6537,
      "step": 2511
    },
    {
      "epoch": 0.31193344095368186,
      "grad_norm": 0.2427312582731247,
      "learning_rate": 5e-05,
      "loss": 1.8059,
      "step": 2512
    },
    {
      "epoch": 0.31205761827890227,
      "grad_norm": 0.4045015871524811,
      "learning_rate": 5e-05,
      "loss": 2.8572,
      "step": 2513
    },
    {
      "epoch": 0.3121817956041227,
      "grad_norm": 0.23642271757125854,
      "learning_rate": 5e-05,
      "loss": 1.9659,
      "step": 2514
    },
    {
      "epoch": 0.3123059729293431,
      "grad_norm": 0.2804414927959442,
      "learning_rate": 5e-05,
      "loss": 2.2127,
      "step": 2515
    },
    {
      "epoch": 0.3124301502545635,
      "grad_norm": 0.2459835261106491,
      "learning_rate": 5e-05,
      "loss": 2.0427,
      "step": 2516
    },
    {
      "epoch": 0.3125543275797839,
      "grad_norm": 0.24142514169216156,
      "learning_rate": 5e-05,
      "loss": 2.047,
      "step": 2517
    },
    {
      "epoch": 0.3126785049050044,
      "grad_norm": 0.2312665432691574,
      "learning_rate": 5e-05,
      "loss": 2.2251,
      "step": 2518
    },
    {
      "epoch": 0.3128026822302248,
      "grad_norm": 0.2877069115638733,
      "learning_rate": 5e-05,
      "loss": 2.527,
      "step": 2519
    },
    {
      "epoch": 0.3129268595554452,
      "grad_norm": 0.2483450472354889,
      "learning_rate": 5e-05,
      "loss": 1.9798,
      "step": 2520
    },
    {
      "epoch": 0.3130510368806656,
      "grad_norm": 0.3296887278556824,
      "learning_rate": 5e-05,
      "loss": 3.1845,
      "step": 2521
    },
    {
      "epoch": 0.313175214205886,
      "grad_norm": 0.3899775743484497,
      "learning_rate": 5e-05,
      "loss": 3.6965,
      "step": 2522
    },
    {
      "epoch": 0.3132993915311064,
      "grad_norm": 0.28904592990875244,
      "learning_rate": 5e-05,
      "loss": 2.2741,
      "step": 2523
    },
    {
      "epoch": 0.31342356885632683,
      "grad_norm": 0.23408769071102142,
      "learning_rate": 5e-05,
      "loss": 1.9654,
      "step": 2524
    },
    {
      "epoch": 0.31354774618154724,
      "grad_norm": 0.23560366034507751,
      "learning_rate": 5e-05,
      "loss": 1.8064,
      "step": 2525
    },
    {
      "epoch": 0.31367192350676765,
      "grad_norm": 0.35884061455726624,
      "learning_rate": 5e-05,
      "loss": 2.8486,
      "step": 2526
    },
    {
      "epoch": 0.31379610083198806,
      "grad_norm": 0.37347790598869324,
      "learning_rate": 5e-05,
      "loss": 2.8253,
      "step": 2527
    },
    {
      "epoch": 0.3139202781572085,
      "grad_norm": 0.2519088387489319,
      "learning_rate": 5e-05,
      "loss": 1.6374,
      "step": 2528
    },
    {
      "epoch": 0.31404445548242893,
      "grad_norm": 0.28811997175216675,
      "learning_rate": 5e-05,
      "loss": 2.1381,
      "step": 2529
    },
    {
      "epoch": 0.31416863280764934,
      "grad_norm": 0.3027819097042084,
      "learning_rate": 5e-05,
      "loss": 1.7923,
      "step": 2530
    },
    {
      "epoch": 0.31429281013286975,
      "grad_norm": 0.2588360607624054,
      "learning_rate": 5e-05,
      "loss": 1.7273,
      "step": 2531
    },
    {
      "epoch": 0.31441698745809016,
      "grad_norm": 0.29783663153648376,
      "learning_rate": 5e-05,
      "loss": 1.9726,
      "step": 2532
    },
    {
      "epoch": 0.31454116478331057,
      "grad_norm": 0.31342625617980957,
      "learning_rate": 5e-05,
      "loss": 2.3345,
      "step": 2533
    },
    {
      "epoch": 0.314665342108531,
      "grad_norm": 0.24071022868156433,
      "learning_rate": 5e-05,
      "loss": 1.8475,
      "step": 2534
    },
    {
      "epoch": 0.3147895194337514,
      "grad_norm": 0.22726815938949585,
      "learning_rate": 5e-05,
      "loss": 1.6566,
      "step": 2535
    },
    {
      "epoch": 0.3149136967589718,
      "grad_norm": 0.3996993899345398,
      "learning_rate": 5e-05,
      "loss": 2.6677,
      "step": 2536
    },
    {
      "epoch": 0.3150378740841922,
      "grad_norm": 0.23101429641246796,
      "learning_rate": 5e-05,
      "loss": 1.7464,
      "step": 2537
    },
    {
      "epoch": 0.3151620514094126,
      "grad_norm": 0.25499263405799866,
      "learning_rate": 5e-05,
      "loss": 2.2116,
      "step": 2538
    },
    {
      "epoch": 0.3152862287346331,
      "grad_norm": 0.24672424793243408,
      "learning_rate": 5e-05,
      "loss": 1.7512,
      "step": 2539
    },
    {
      "epoch": 0.3154104060598535,
      "grad_norm": 0.5668124556541443,
      "learning_rate": 5e-05,
      "loss": 2.8346,
      "step": 2540
    },
    {
      "epoch": 0.3155345833850739,
      "grad_norm": 0.23340995609760284,
      "learning_rate": 5e-05,
      "loss": 1.76,
      "step": 2541
    },
    {
      "epoch": 0.3156587607102943,
      "grad_norm": 0.24544575810432434,
      "learning_rate": 5e-05,
      "loss": 1.8566,
      "step": 2542
    },
    {
      "epoch": 0.3157829380355147,
      "grad_norm": 0.33343833684921265,
      "learning_rate": 5e-05,
      "loss": 2.766,
      "step": 2543
    },
    {
      "epoch": 0.3159071153607351,
      "grad_norm": 0.3853832483291626,
      "learning_rate": 5e-05,
      "loss": 2.4766,
      "step": 2544
    },
    {
      "epoch": 0.31603129268595553,
      "grad_norm": 0.24076224863529205,
      "learning_rate": 5e-05,
      "loss": 1.8126,
      "step": 2545
    },
    {
      "epoch": 0.31615547001117594,
      "grad_norm": 0.3051636815071106,
      "learning_rate": 5e-05,
      "loss": 2.1975,
      "step": 2546
    },
    {
      "epoch": 0.31627964733639635,
      "grad_norm": 0.25120866298675537,
      "learning_rate": 5e-05,
      "loss": 1.8756,
      "step": 2547
    },
    {
      "epoch": 0.31640382466161676,
      "grad_norm": 0.2584150433540344,
      "learning_rate": 5e-05,
      "loss": 1.6929,
      "step": 2548
    },
    {
      "epoch": 0.3165280019868372,
      "grad_norm": 0.2948315143585205,
      "learning_rate": 5e-05,
      "loss": 2.0621,
      "step": 2549
    },
    {
      "epoch": 0.31665217931205764,
      "grad_norm": 0.2855660617351532,
      "learning_rate": 5e-05,
      "loss": 1.9359,
      "step": 2550
    },
    {
      "epoch": 0.31677635663727804,
      "grad_norm": 0.2411571592092514,
      "learning_rate": 5e-05,
      "loss": 1.8733,
      "step": 2551
    },
    {
      "epoch": 0.31690053396249845,
      "grad_norm": 0.26222503185272217,
      "learning_rate": 5e-05,
      "loss": 1.6517,
      "step": 2552
    },
    {
      "epoch": 0.31702471128771886,
      "grad_norm": 0.3573346436023712,
      "learning_rate": 5e-05,
      "loss": 2.6762,
      "step": 2553
    },
    {
      "epoch": 0.3171488886129393,
      "grad_norm": 0.26404184103012085,
      "learning_rate": 5e-05,
      "loss": 2.0124,
      "step": 2554
    },
    {
      "epoch": 0.3172730659381597,
      "grad_norm": 0.2882382869720459,
      "learning_rate": 5e-05,
      "loss": 2.1145,
      "step": 2555
    },
    {
      "epoch": 0.3173972432633801,
      "grad_norm": 0.26033490896224976,
      "learning_rate": 5e-05,
      "loss": 2.0684,
      "step": 2556
    },
    {
      "epoch": 0.3175214205886005,
      "grad_norm": 0.24561190605163574,
      "learning_rate": 5e-05,
      "loss": 1.9723,
      "step": 2557
    },
    {
      "epoch": 0.3176455979138209,
      "grad_norm": 0.25734731554985046,
      "learning_rate": 5e-05,
      "loss": 1.9308,
      "step": 2558
    },
    {
      "epoch": 0.3177697752390414,
      "grad_norm": 0.23246902227401733,
      "learning_rate": 5e-05,
      "loss": 1.9535,
      "step": 2559
    },
    {
      "epoch": 0.3178939525642618,
      "grad_norm": 0.2905048131942749,
      "learning_rate": 5e-05,
      "loss": 2.1131,
      "step": 2560
    },
    {
      "epoch": 0.3180181298894822,
      "grad_norm": 0.4069557785987854,
      "learning_rate": 5e-05,
      "loss": 3.1098,
      "step": 2561
    },
    {
      "epoch": 0.3181423072147026,
      "grad_norm": 0.24848723411560059,
      "learning_rate": 5e-05,
      "loss": 1.6208,
      "step": 2562
    },
    {
      "epoch": 0.318266484539923,
      "grad_norm": 0.23309265077114105,
      "learning_rate": 5e-05,
      "loss": 1.9138,
      "step": 2563
    },
    {
      "epoch": 0.3183906618651434,
      "grad_norm": 0.23934386670589447,
      "learning_rate": 5e-05,
      "loss": 1.9338,
      "step": 2564
    },
    {
      "epoch": 0.31851483919036383,
      "grad_norm": 0.24818089604377747,
      "learning_rate": 5e-05,
      "loss": 1.828,
      "step": 2565
    },
    {
      "epoch": 0.31863901651558424,
      "grad_norm": 0.2427911013364792,
      "learning_rate": 5e-05,
      "loss": 2.1759,
      "step": 2566
    },
    {
      "epoch": 0.31876319384080465,
      "grad_norm": 0.45614150166511536,
      "learning_rate": 5e-05,
      "loss": 2.8011,
      "step": 2567
    },
    {
      "epoch": 0.31888737116602506,
      "grad_norm": 0.27476051449775696,
      "learning_rate": 5e-05,
      "loss": 1.8987,
      "step": 2568
    },
    {
      "epoch": 0.3190115484912455,
      "grad_norm": 0.29608142375946045,
      "learning_rate": 5e-05,
      "loss": 2.0781,
      "step": 2569
    },
    {
      "epoch": 0.31913572581646593,
      "grad_norm": 0.25067877769470215,
      "learning_rate": 5e-05,
      "loss": 1.8279,
      "step": 2570
    },
    {
      "epoch": 0.31925990314168634,
      "grad_norm": 0.2373666763305664,
      "learning_rate": 5e-05,
      "loss": 1.7941,
      "step": 2571
    },
    {
      "epoch": 0.31938408046690675,
      "grad_norm": 0.31739741563796997,
      "learning_rate": 5e-05,
      "loss": 3.0416,
      "step": 2572
    },
    {
      "epoch": 0.31950825779212716,
      "grad_norm": 0.2558632791042328,
      "learning_rate": 5e-05,
      "loss": 2.1331,
      "step": 2573
    },
    {
      "epoch": 0.31963243511734757,
      "grad_norm": 0.3861458897590637,
      "learning_rate": 5e-05,
      "loss": 2.8171,
      "step": 2574
    },
    {
      "epoch": 0.319756612442568,
      "grad_norm": 0.25404876470565796,
      "learning_rate": 5e-05,
      "loss": 1.8765,
      "step": 2575
    },
    {
      "epoch": 0.3198807897677884,
      "grad_norm": 0.26449182629585266,
      "learning_rate": 5e-05,
      "loss": 2.7219,
      "step": 2576
    },
    {
      "epoch": 0.3200049670930088,
      "grad_norm": 0.28693827986717224,
      "learning_rate": 5e-05,
      "loss": 1.9925,
      "step": 2577
    },
    {
      "epoch": 0.3201291444182292,
      "grad_norm": 0.3140489459037781,
      "learning_rate": 5e-05,
      "loss": 2.4472,
      "step": 2578
    },
    {
      "epoch": 0.32025332174344967,
      "grad_norm": 0.3093940317630768,
      "learning_rate": 5e-05,
      "loss": 2.3313,
      "step": 2579
    },
    {
      "epoch": 0.3203774990686701,
      "grad_norm": 0.3359769582748413,
      "learning_rate": 5e-05,
      "loss": 2.0752,
      "step": 2580
    },
    {
      "epoch": 0.3205016763938905,
      "grad_norm": 0.22974927723407745,
      "learning_rate": 5e-05,
      "loss": 1.7855,
      "step": 2581
    },
    {
      "epoch": 0.3206258537191109,
      "grad_norm": 0.22663480043411255,
      "learning_rate": 5e-05,
      "loss": 1.7345,
      "step": 2582
    },
    {
      "epoch": 0.3207500310443313,
      "grad_norm": 0.25881427526474,
      "learning_rate": 5e-05,
      "loss": 2.1007,
      "step": 2583
    },
    {
      "epoch": 0.3208742083695517,
      "grad_norm": 0.26866796612739563,
      "learning_rate": 5e-05,
      "loss": 1.8233,
      "step": 2584
    },
    {
      "epoch": 0.3209983856947721,
      "grad_norm": 0.25161150097846985,
      "learning_rate": 5e-05,
      "loss": 1.6518,
      "step": 2585
    },
    {
      "epoch": 0.32112256301999254,
      "grad_norm": 0.2753816545009613,
      "learning_rate": 5e-05,
      "loss": 2.4342,
      "step": 2586
    },
    {
      "epoch": 0.32124674034521294,
      "grad_norm": 0.23251129686832428,
      "learning_rate": 5e-05,
      "loss": 1.693,
      "step": 2587
    },
    {
      "epoch": 0.32137091767043335,
      "grad_norm": 0.2461782991886139,
      "learning_rate": 5e-05,
      "loss": 1.8945,
      "step": 2588
    },
    {
      "epoch": 0.3214950949956538,
      "grad_norm": 0.2650192975997925,
      "learning_rate": 5e-05,
      "loss": 1.9366,
      "step": 2589
    },
    {
      "epoch": 0.3216192723208742,
      "grad_norm": 0.26024186611175537,
      "learning_rate": 5e-05,
      "loss": 1.8595,
      "step": 2590
    },
    {
      "epoch": 0.32174344964609464,
      "grad_norm": 0.27012261748313904,
      "learning_rate": 5e-05,
      "loss": 2.2075,
      "step": 2591
    },
    {
      "epoch": 0.32186762697131505,
      "grad_norm": 0.2246539145708084,
      "learning_rate": 5e-05,
      "loss": 1.688,
      "step": 2592
    },
    {
      "epoch": 0.32199180429653546,
      "grad_norm": 0.23415213823318481,
      "learning_rate": 5e-05,
      "loss": 1.8578,
      "step": 2593
    },
    {
      "epoch": 0.32211598162175586,
      "grad_norm": 0.2437078058719635,
      "learning_rate": 5e-05,
      "loss": 2.0806,
      "step": 2594
    },
    {
      "epoch": 0.3222401589469763,
      "grad_norm": 0.24832111597061157,
      "learning_rate": 5e-05,
      "loss": 1.8768,
      "step": 2595
    },
    {
      "epoch": 0.3223643362721967,
      "grad_norm": 0.23762859404087067,
      "learning_rate": 5e-05,
      "loss": 1.8972,
      "step": 2596
    },
    {
      "epoch": 0.3224885135974171,
      "grad_norm": 0.2609170377254486,
      "learning_rate": 5e-05,
      "loss": 1.9046,
      "step": 2597
    },
    {
      "epoch": 0.3226126909226375,
      "grad_norm": 0.24320930242538452,
      "learning_rate": 5e-05,
      "loss": 1.8634,
      "step": 2598
    },
    {
      "epoch": 0.32273686824785797,
      "grad_norm": 0.23969106376171112,
      "learning_rate": 5e-05,
      "loss": 2.0519,
      "step": 2599
    },
    {
      "epoch": 0.3228610455730784,
      "grad_norm": 0.23233890533447266,
      "learning_rate": 5e-05,
      "loss": 2.0007,
      "step": 2600
    },
    {
      "epoch": 0.3229852228982988,
      "grad_norm": 0.2541627287864685,
      "learning_rate": 5e-05,
      "loss": 1.9781,
      "step": 2601
    },
    {
      "epoch": 0.3231094002235192,
      "grad_norm": 0.3138279914855957,
      "learning_rate": 5e-05,
      "loss": 2.7624,
      "step": 2602
    },
    {
      "epoch": 0.3232335775487396,
      "grad_norm": 0.26152801513671875,
      "learning_rate": 5e-05,
      "loss": 1.887,
      "step": 2603
    },
    {
      "epoch": 0.32335775487396,
      "grad_norm": 0.2979021370410919,
      "learning_rate": 5e-05,
      "loss": 2.2104,
      "step": 2604
    },
    {
      "epoch": 0.3234819321991804,
      "grad_norm": 0.25503554940223694,
      "learning_rate": 5e-05,
      "loss": 1.8952,
      "step": 2605
    },
    {
      "epoch": 0.32360610952440083,
      "grad_norm": 0.26938286423683167,
      "learning_rate": 5e-05,
      "loss": 1.9496,
      "step": 2606
    },
    {
      "epoch": 0.32373028684962124,
      "grad_norm": 0.24282211065292358,
      "learning_rate": 5e-05,
      "loss": 2.2124,
      "step": 2607
    },
    {
      "epoch": 0.32385446417484165,
      "grad_norm": 0.2514600455760956,
      "learning_rate": 5e-05,
      "loss": 1.9283,
      "step": 2608
    },
    {
      "epoch": 0.3239786415000621,
      "grad_norm": 0.3718923032283783,
      "learning_rate": 5e-05,
      "loss": 2.8925,
      "step": 2609
    },
    {
      "epoch": 0.3241028188252825,
      "grad_norm": 0.251128226518631,
      "learning_rate": 5e-05,
      "loss": 2.2661,
      "step": 2610
    },
    {
      "epoch": 0.32422699615050293,
      "grad_norm": 0.29401934146881104,
      "learning_rate": 5e-05,
      "loss": 2.8054,
      "step": 2611
    },
    {
      "epoch": 0.32435117347572334,
      "grad_norm": 0.2613525092601776,
      "learning_rate": 5e-05,
      "loss": 1.985,
      "step": 2612
    },
    {
      "epoch": 0.32447535080094375,
      "grad_norm": 0.2795410752296448,
      "learning_rate": 5e-05,
      "loss": 1.9676,
      "step": 2613
    },
    {
      "epoch": 0.32459952812616416,
      "grad_norm": 0.33179956674575806,
      "learning_rate": 5e-05,
      "loss": 1.8922,
      "step": 2614
    },
    {
      "epoch": 0.32472370545138457,
      "grad_norm": 0.2416449785232544,
      "learning_rate": 5e-05,
      "loss": 1.9962,
      "step": 2615
    },
    {
      "epoch": 0.324847882776605,
      "grad_norm": 0.23456701636314392,
      "learning_rate": 5e-05,
      "loss": 1.9759,
      "step": 2616
    },
    {
      "epoch": 0.3249720601018254,
      "grad_norm": 0.2778686583042145,
      "learning_rate": 5e-05,
      "loss": 2.401,
      "step": 2617
    },
    {
      "epoch": 0.3250962374270458,
      "grad_norm": 0.3438623547554016,
      "learning_rate": 5e-05,
      "loss": 2.7347,
      "step": 2618
    },
    {
      "epoch": 0.32522041475226626,
      "grad_norm": 0.3233967125415802,
      "learning_rate": 5e-05,
      "loss": 2.2459,
      "step": 2619
    },
    {
      "epoch": 0.32534459207748667,
      "grad_norm": 0.2583015263080597,
      "learning_rate": 5e-05,
      "loss": 1.9029,
      "step": 2620
    },
    {
      "epoch": 0.3254687694027071,
      "grad_norm": 0.3060656487941742,
      "learning_rate": 5e-05,
      "loss": 1.5508,
      "step": 2621
    },
    {
      "epoch": 0.3255929467279275,
      "grad_norm": 0.25296443700790405,
      "learning_rate": 5e-05,
      "loss": 2.5846,
      "step": 2622
    },
    {
      "epoch": 0.3257171240531479,
      "grad_norm": 0.24775736033916473,
      "learning_rate": 5e-05,
      "loss": 2.3037,
      "step": 2623
    },
    {
      "epoch": 0.3258413013783683,
      "grad_norm": 0.3886055648326874,
      "learning_rate": 5e-05,
      "loss": 2.3527,
      "step": 2624
    },
    {
      "epoch": 0.3259654787035887,
      "grad_norm": 0.334266722202301,
      "learning_rate": 5e-05,
      "loss": 2.2881,
      "step": 2625
    },
    {
      "epoch": 0.3260896560288091,
      "grad_norm": 0.23398357629776,
      "learning_rate": 5e-05,
      "loss": 1.9165,
      "step": 2626
    },
    {
      "epoch": 0.32621383335402954,
      "grad_norm": 0.36124876141548157,
      "learning_rate": 5e-05,
      "loss": 2.7855,
      "step": 2627
    },
    {
      "epoch": 0.32633801067924995,
      "grad_norm": 0.29917779564857483,
      "learning_rate": 5e-05,
      "loss": 1.9819,
      "step": 2628
    },
    {
      "epoch": 0.3264621880044704,
      "grad_norm": 0.23874613642692566,
      "learning_rate": 5e-05,
      "loss": 1.8867,
      "step": 2629
    },
    {
      "epoch": 0.3265863653296908,
      "grad_norm": 0.2507156431674957,
      "learning_rate": 5e-05,
      "loss": 1.9305,
      "step": 2630
    },
    {
      "epoch": 0.32671054265491123,
      "grad_norm": 0.27563899755477905,
      "learning_rate": 5e-05,
      "loss": 1.9243,
      "step": 2631
    },
    {
      "epoch": 0.32683471998013164,
      "grad_norm": 0.3420770764350891,
      "learning_rate": 5e-05,
      "loss": 2.1129,
      "step": 2632
    },
    {
      "epoch": 0.32695889730535205,
      "grad_norm": 0.2556460499763489,
      "learning_rate": 5e-05,
      "loss": 1.9466,
      "step": 2633
    },
    {
      "epoch": 0.32708307463057246,
      "grad_norm": 0.25012239813804626,
      "learning_rate": 5e-05,
      "loss": 2.0434,
      "step": 2634
    },
    {
      "epoch": 0.32720725195579287,
      "grad_norm": 0.23320777714252472,
      "learning_rate": 5e-05,
      "loss": 1.7267,
      "step": 2635
    },
    {
      "epoch": 0.3273314292810133,
      "grad_norm": 0.2637651860713959,
      "learning_rate": 5e-05,
      "loss": 1.8675,
      "step": 2636
    },
    {
      "epoch": 0.3274556066062337,
      "grad_norm": 0.25030505657196045,
      "learning_rate": 5e-05,
      "loss": 1.903,
      "step": 2637
    },
    {
      "epoch": 0.3275797839314541,
      "grad_norm": 0.29324087500572205,
      "learning_rate": 5e-05,
      "loss": 2.2937,
      "step": 2638
    },
    {
      "epoch": 0.32770396125667456,
      "grad_norm": 0.26107755303382874,
      "learning_rate": 5e-05,
      "loss": 2.2742,
      "step": 2639
    },
    {
      "epoch": 0.32782813858189497,
      "grad_norm": 0.22181333601474762,
      "learning_rate": 5e-05,
      "loss": 1.7687,
      "step": 2640
    },
    {
      "epoch": 0.3279523159071154,
      "grad_norm": 0.2466670721769333,
      "learning_rate": 5e-05,
      "loss": 1.9903,
      "step": 2641
    },
    {
      "epoch": 0.3280764932323358,
      "grad_norm": 0.23251676559448242,
      "learning_rate": 5e-05,
      "loss": 1.9068,
      "step": 2642
    },
    {
      "epoch": 0.3282006705575562,
      "grad_norm": 0.23802676796913147,
      "learning_rate": 5e-05,
      "loss": 1.9622,
      "step": 2643
    },
    {
      "epoch": 0.3283248478827766,
      "grad_norm": 0.2624177932739258,
      "learning_rate": 5e-05,
      "loss": 2.1765,
      "step": 2644
    },
    {
      "epoch": 0.328449025207997,
      "grad_norm": 0.23530355095863342,
      "learning_rate": 5e-05,
      "loss": 1.5327,
      "step": 2645
    },
    {
      "epoch": 0.3285732025332174,
      "grad_norm": 0.22901184856891632,
      "learning_rate": 5e-05,
      "loss": 1.7254,
      "step": 2646
    },
    {
      "epoch": 0.32869737985843783,
      "grad_norm": 0.2742987275123596,
      "learning_rate": 5e-05,
      "loss": 2.1629,
      "step": 2647
    },
    {
      "epoch": 0.32882155718365824,
      "grad_norm": 0.2945564091205597,
      "learning_rate": 5e-05,
      "loss": 2.4229,
      "step": 2648
    },
    {
      "epoch": 0.32894573450887865,
      "grad_norm": 0.23239965736865997,
      "learning_rate": 5e-05,
      "loss": 1.9242,
      "step": 2649
    },
    {
      "epoch": 0.3290699118340991,
      "grad_norm": 0.3828739523887634,
      "learning_rate": 5e-05,
      "loss": 2.9628,
      "step": 2650
    },
    {
      "epoch": 0.3291940891593195,
      "grad_norm": 0.2655232846736908,
      "learning_rate": 5e-05,
      "loss": 1.967,
      "step": 2651
    },
    {
      "epoch": 0.32931826648453993,
      "grad_norm": 0.24563553929328918,
      "learning_rate": 5e-05,
      "loss": 1.8046,
      "step": 2652
    },
    {
      "epoch": 0.32944244380976034,
      "grad_norm": 0.24741974472999573,
      "learning_rate": 5e-05,
      "loss": 1.7547,
      "step": 2653
    },
    {
      "epoch": 0.32956662113498075,
      "grad_norm": 0.25758981704711914,
      "learning_rate": 5e-05,
      "loss": 1.7289,
      "step": 2654
    },
    {
      "epoch": 0.32969079846020116,
      "grad_norm": 0.2502439618110657,
      "learning_rate": 5e-05,
      "loss": 1.9411,
      "step": 2655
    },
    {
      "epoch": 0.32981497578542157,
      "grad_norm": 0.273319810628891,
      "learning_rate": 5e-05,
      "loss": 1.8997,
      "step": 2656
    },
    {
      "epoch": 0.329939153110642,
      "grad_norm": 0.2838249206542969,
      "learning_rate": 5e-05,
      "loss": 2.6379,
      "step": 2657
    },
    {
      "epoch": 0.3300633304358624,
      "grad_norm": 0.28816327452659607,
      "learning_rate": 5e-05,
      "loss": 2.399,
      "step": 2658
    },
    {
      "epoch": 0.3301875077610828,
      "grad_norm": 0.2628127932548523,
      "learning_rate": 5e-05,
      "loss": 1.6436,
      "step": 2659
    },
    {
      "epoch": 0.33031168508630326,
      "grad_norm": 0.2610509693622589,
      "learning_rate": 5e-05,
      "loss": 2.1179,
      "step": 2660
    },
    {
      "epoch": 0.3304358624115237,
      "grad_norm": 0.23995278775691986,
      "learning_rate": 5e-05,
      "loss": 1.9511,
      "step": 2661
    },
    {
      "epoch": 0.3305600397367441,
      "grad_norm": 0.244562029838562,
      "learning_rate": 5e-05,
      "loss": 1.8793,
      "step": 2662
    },
    {
      "epoch": 0.3306842170619645,
      "grad_norm": 0.5141323804855347,
      "learning_rate": 5e-05,
      "loss": 3.3328,
      "step": 2663
    },
    {
      "epoch": 0.3308083943871849,
      "grad_norm": 0.2750050127506256,
      "learning_rate": 5e-05,
      "loss": 1.8901,
      "step": 2664
    },
    {
      "epoch": 0.3309325717124053,
      "grad_norm": 0.2849682867527008,
      "learning_rate": 5e-05,
      "loss": 2.6235,
      "step": 2665
    },
    {
      "epoch": 0.3310567490376257,
      "grad_norm": 0.2689409852027893,
      "learning_rate": 5e-05,
      "loss": 1.7571,
      "step": 2666
    },
    {
      "epoch": 0.33118092636284613,
      "grad_norm": 0.23531028628349304,
      "learning_rate": 5e-05,
      "loss": 1.7193,
      "step": 2667
    },
    {
      "epoch": 0.33130510368806654,
      "grad_norm": 0.25513288378715515,
      "learning_rate": 5e-05,
      "loss": 1.7936,
      "step": 2668
    },
    {
      "epoch": 0.33142928101328695,
      "grad_norm": 0.3676108121871948,
      "learning_rate": 5e-05,
      "loss": 2.3917,
      "step": 2669
    },
    {
      "epoch": 0.3315534583385074,
      "grad_norm": 0.2444765716791153,
      "learning_rate": 5e-05,
      "loss": 1.7087,
      "step": 2670
    },
    {
      "epoch": 0.3316776356637278,
      "grad_norm": 0.25341418385505676,
      "learning_rate": 5e-05,
      "loss": 1.879,
      "step": 2671
    },
    {
      "epoch": 0.33180181298894823,
      "grad_norm": 0.27764201164245605,
      "learning_rate": 5e-05,
      "loss": 1.8237,
      "step": 2672
    },
    {
      "epoch": 0.33192599031416864,
      "grad_norm": 0.3166208267211914,
      "learning_rate": 5e-05,
      "loss": 2.9127,
      "step": 2673
    },
    {
      "epoch": 0.33205016763938905,
      "grad_norm": 0.2800692319869995,
      "learning_rate": 5e-05,
      "loss": 1.941,
      "step": 2674
    },
    {
      "epoch": 0.33217434496460946,
      "grad_norm": 0.22468514740467072,
      "learning_rate": 5e-05,
      "loss": 1.8493,
      "step": 2675
    },
    {
      "epoch": 0.33229852228982987,
      "grad_norm": 0.27179422974586487,
      "learning_rate": 5e-05,
      "loss": 1.8602,
      "step": 2676
    },
    {
      "epoch": 0.3324226996150503,
      "grad_norm": 0.2641296982765198,
      "learning_rate": 5e-05,
      "loss": 2.0543,
      "step": 2677
    },
    {
      "epoch": 0.3325468769402707,
      "grad_norm": 0.23599618673324585,
      "learning_rate": 5e-05,
      "loss": 1.8476,
      "step": 2678
    },
    {
      "epoch": 0.3326710542654911,
      "grad_norm": 0.2693142592906952,
      "learning_rate": 5e-05,
      "loss": 2.3955,
      "step": 2679
    },
    {
      "epoch": 0.33279523159071156,
      "grad_norm": 0.32645127177238464,
      "learning_rate": 5e-05,
      "loss": 2.8382,
      "step": 2680
    },
    {
      "epoch": 0.33291940891593197,
      "grad_norm": 0.3135913610458374,
      "learning_rate": 5e-05,
      "loss": 2.8269,
      "step": 2681
    },
    {
      "epoch": 0.3330435862411524,
      "grad_norm": 0.2425813525915146,
      "learning_rate": 5e-05,
      "loss": 2.1296,
      "step": 2682
    },
    {
      "epoch": 0.3331677635663728,
      "grad_norm": 0.24746792018413544,
      "learning_rate": 5e-05,
      "loss": 1.9992,
      "step": 2683
    },
    {
      "epoch": 0.3332919408915932,
      "grad_norm": 0.2597034275531769,
      "learning_rate": 5e-05,
      "loss": 2.1613,
      "step": 2684
    },
    {
      "epoch": 0.3334161182168136,
      "grad_norm": 0.25011998414993286,
      "learning_rate": 5e-05,
      "loss": 1.714,
      "step": 2685
    },
    {
      "epoch": 0.333540295542034,
      "grad_norm": 0.25739601254463196,
      "learning_rate": 5e-05,
      "loss": 1.8186,
      "step": 2686
    },
    {
      "epoch": 0.3336644728672544,
      "grad_norm": 0.2503407597541809,
      "learning_rate": 5e-05,
      "loss": 2.0762,
      "step": 2687
    },
    {
      "epoch": 0.33378865019247483,
      "grad_norm": 0.22531376779079437,
      "learning_rate": 5e-05,
      "loss": 1.7984,
      "step": 2688
    },
    {
      "epoch": 0.33391282751769524,
      "grad_norm": 0.2579403817653656,
      "learning_rate": 5e-05,
      "loss": 2.1103,
      "step": 2689
    },
    {
      "epoch": 0.3340370048429157,
      "grad_norm": 0.40785160660743713,
      "learning_rate": 5e-05,
      "loss": 3.0645,
      "step": 2690
    },
    {
      "epoch": 0.3341611821681361,
      "grad_norm": 0.2736961543560028,
      "learning_rate": 5e-05,
      "loss": 1.8795,
      "step": 2691
    },
    {
      "epoch": 0.3342853594933565,
      "grad_norm": 0.2668151259422302,
      "learning_rate": 5e-05,
      "loss": 1.9112,
      "step": 2692
    },
    {
      "epoch": 0.33440953681857694,
      "grad_norm": 0.28688573837280273,
      "learning_rate": 5e-05,
      "loss": 2.3506,
      "step": 2693
    },
    {
      "epoch": 0.33453371414379734,
      "grad_norm": 0.3707292675971985,
      "learning_rate": 5e-05,
      "loss": 2.82,
      "step": 2694
    },
    {
      "epoch": 0.33465789146901775,
      "grad_norm": 0.31736403703689575,
      "learning_rate": 5e-05,
      "loss": 2.3905,
      "step": 2695
    },
    {
      "epoch": 0.33478206879423816,
      "grad_norm": 0.277593731880188,
      "learning_rate": 5e-05,
      "loss": 2.0318,
      "step": 2696
    },
    {
      "epoch": 0.3349062461194586,
      "grad_norm": 0.2929210364818573,
      "learning_rate": 5e-05,
      "loss": 1.8892,
      "step": 2697
    },
    {
      "epoch": 0.335030423444679,
      "grad_norm": 0.26633548736572266,
      "learning_rate": 5e-05,
      "loss": 1.9027,
      "step": 2698
    },
    {
      "epoch": 0.3351546007698994,
      "grad_norm": 0.4682208001613617,
      "learning_rate": 5e-05,
      "loss": 2.5928,
      "step": 2699
    },
    {
      "epoch": 0.33527877809511986,
      "grad_norm": 0.25876596570014954,
      "learning_rate": 5e-05,
      "loss": 1.7666,
      "step": 2700
    },
    {
      "epoch": 0.33540295542034027,
      "grad_norm": 0.22832977771759033,
      "learning_rate": 5e-05,
      "loss": 1.7001,
      "step": 2701
    },
    {
      "epoch": 0.3355271327455607,
      "grad_norm": 0.24146679043769836,
      "learning_rate": 5e-05,
      "loss": 1.8001,
      "step": 2702
    },
    {
      "epoch": 0.3356513100707811,
      "grad_norm": 0.3086354732513428,
      "learning_rate": 5e-05,
      "loss": 2.4505,
      "step": 2703
    },
    {
      "epoch": 0.3357754873960015,
      "grad_norm": 0.25541186332702637,
      "learning_rate": 5e-05,
      "loss": 1.9138,
      "step": 2704
    },
    {
      "epoch": 0.3358996647212219,
      "grad_norm": 0.23455943167209625,
      "learning_rate": 5e-05,
      "loss": 1.6462,
      "step": 2705
    },
    {
      "epoch": 0.3360238420464423,
      "grad_norm": 0.2655121386051178,
      "learning_rate": 5e-05,
      "loss": 2.4973,
      "step": 2706
    },
    {
      "epoch": 0.3361480193716627,
      "grad_norm": 0.2663942873477936,
      "learning_rate": 5e-05,
      "loss": 1.8188,
      "step": 2707
    },
    {
      "epoch": 0.33627219669688313,
      "grad_norm": 0.24645750224590302,
      "learning_rate": 5e-05,
      "loss": 1.8151,
      "step": 2708
    },
    {
      "epoch": 0.33639637402210354,
      "grad_norm": 0.23590873181819916,
      "learning_rate": 5e-05,
      "loss": 1.847,
      "step": 2709
    },
    {
      "epoch": 0.336520551347324,
      "grad_norm": 0.2445584535598755,
      "learning_rate": 5e-05,
      "loss": 1.9029,
      "step": 2710
    },
    {
      "epoch": 0.3366447286725444,
      "grad_norm": 0.23135963082313538,
      "learning_rate": 5e-05,
      "loss": 1.7899,
      "step": 2711
    },
    {
      "epoch": 0.3367689059977648,
      "grad_norm": 0.2910292446613312,
      "learning_rate": 5e-05,
      "loss": 2.4689,
      "step": 2712
    },
    {
      "epoch": 0.33689308332298523,
      "grad_norm": 0.2866653800010681,
      "learning_rate": 5e-05,
      "loss": 2.1988,
      "step": 2713
    },
    {
      "epoch": 0.33701726064820564,
      "grad_norm": 0.246674582362175,
      "learning_rate": 5e-05,
      "loss": 1.806,
      "step": 2714
    },
    {
      "epoch": 0.33714143797342605,
      "grad_norm": 0.24526937305927277,
      "learning_rate": 5e-05,
      "loss": 1.6654,
      "step": 2715
    },
    {
      "epoch": 0.33726561529864646,
      "grad_norm": 0.2305716723203659,
      "learning_rate": 5e-05,
      "loss": 1.806,
      "step": 2716
    },
    {
      "epoch": 0.33738979262386687,
      "grad_norm": 0.36503860354423523,
      "learning_rate": 5e-05,
      "loss": 2.9692,
      "step": 2717
    },
    {
      "epoch": 0.3375139699490873,
      "grad_norm": 0.2545728385448456,
      "learning_rate": 5e-05,
      "loss": 1.7236,
      "step": 2718
    },
    {
      "epoch": 0.3376381472743077,
      "grad_norm": 0.24277035892009735,
      "learning_rate": 5e-05,
      "loss": 1.6737,
      "step": 2719
    },
    {
      "epoch": 0.33776232459952815,
      "grad_norm": 0.2667277753353119,
      "learning_rate": 5e-05,
      "loss": 1.9704,
      "step": 2720
    },
    {
      "epoch": 0.33788650192474856,
      "grad_norm": 0.32830843329429626,
      "learning_rate": 5e-05,
      "loss": 2.5226,
      "step": 2721
    },
    {
      "epoch": 0.33801067924996897,
      "grad_norm": 0.22645482420921326,
      "learning_rate": 5e-05,
      "loss": 1.6984,
      "step": 2722
    },
    {
      "epoch": 0.3381348565751894,
      "grad_norm": 0.2628045380115509,
      "learning_rate": 5e-05,
      "loss": 2.0692,
      "step": 2723
    },
    {
      "epoch": 0.3382590339004098,
      "grad_norm": 0.2586096227169037,
      "learning_rate": 5e-05,
      "loss": 2.0922,
      "step": 2724
    },
    {
      "epoch": 0.3383832112256302,
      "grad_norm": 0.25160637497901917,
      "learning_rate": 5e-05,
      "loss": 1.8023,
      "step": 2725
    },
    {
      "epoch": 0.3385073885508506,
      "grad_norm": 0.2570488154888153,
      "learning_rate": 5e-05,
      "loss": 2.1305,
      "step": 2726
    },
    {
      "epoch": 0.338631565876071,
      "grad_norm": 0.22564050555229187,
      "learning_rate": 5e-05,
      "loss": 1.6308,
      "step": 2727
    },
    {
      "epoch": 0.3387557432012914,
      "grad_norm": 0.27493584156036377,
      "learning_rate": 5e-05,
      "loss": 1.729,
      "step": 2728
    },
    {
      "epoch": 0.33887992052651184,
      "grad_norm": 0.24422194063663483,
      "learning_rate": 5e-05,
      "loss": 1.9328,
      "step": 2729
    },
    {
      "epoch": 0.3390040978517323,
      "grad_norm": 0.24400582909584045,
      "learning_rate": 5e-05,
      "loss": 2.0376,
      "step": 2730
    },
    {
      "epoch": 0.3391282751769527,
      "grad_norm": 0.25130966305732727,
      "learning_rate": 5e-05,
      "loss": 2.3058,
      "step": 2731
    },
    {
      "epoch": 0.3392524525021731,
      "grad_norm": 0.28701239824295044,
      "learning_rate": 5e-05,
      "loss": 2.3345,
      "step": 2732
    },
    {
      "epoch": 0.33937662982739353,
      "grad_norm": 0.24303431808948517,
      "learning_rate": 5e-05,
      "loss": 2.074,
      "step": 2733
    },
    {
      "epoch": 0.33950080715261394,
      "grad_norm": 0.26334697008132935,
      "learning_rate": 5e-05,
      "loss": 2.1504,
      "step": 2734
    },
    {
      "epoch": 0.33962498447783435,
      "grad_norm": 0.2602726221084595,
      "learning_rate": 5e-05,
      "loss": 1.8967,
      "step": 2735
    },
    {
      "epoch": 0.33974916180305476,
      "grad_norm": 0.26299959421157837,
      "learning_rate": 5e-05,
      "loss": 1.8993,
      "step": 2736
    },
    {
      "epoch": 0.33987333912827516,
      "grad_norm": 0.23371700942516327,
      "learning_rate": 5e-05,
      "loss": 1.9863,
      "step": 2737
    },
    {
      "epoch": 0.3399975164534956,
      "grad_norm": 0.2522105574607849,
      "learning_rate": 5e-05,
      "loss": 1.9815,
      "step": 2738
    },
    {
      "epoch": 0.340121693778716,
      "grad_norm": 0.25059840083122253,
      "learning_rate": 5e-05,
      "loss": 1.7434,
      "step": 2739
    },
    {
      "epoch": 0.34024587110393645,
      "grad_norm": 0.34855976700782776,
      "learning_rate": 5e-05,
      "loss": 2.2668,
      "step": 2740
    },
    {
      "epoch": 0.34037004842915686,
      "grad_norm": 0.3817572593688965,
      "learning_rate": 5e-05,
      "loss": 2.8648,
      "step": 2741
    },
    {
      "epoch": 0.34049422575437727,
      "grad_norm": 0.271109402179718,
      "learning_rate": 5e-05,
      "loss": 1.9262,
      "step": 2742
    },
    {
      "epoch": 0.3406184030795977,
      "grad_norm": 0.3439183235168457,
      "learning_rate": 5e-05,
      "loss": 2.9919,
      "step": 2743
    },
    {
      "epoch": 0.3407425804048181,
      "grad_norm": 0.3174643814563751,
      "learning_rate": 5e-05,
      "loss": 2.19,
      "step": 2744
    },
    {
      "epoch": 0.3408667577300385,
      "grad_norm": 0.4047298729419708,
      "learning_rate": 5e-05,
      "loss": 3.497,
      "step": 2745
    },
    {
      "epoch": 0.3409909350552589,
      "grad_norm": 0.2773181200027466,
      "learning_rate": 5e-05,
      "loss": 2.4118,
      "step": 2746
    },
    {
      "epoch": 0.3411151123804793,
      "grad_norm": 0.38656723499298096,
      "learning_rate": 5e-05,
      "loss": 2.938,
      "step": 2747
    },
    {
      "epoch": 0.3412392897056997,
      "grad_norm": 0.255911260843277,
      "learning_rate": 5e-05,
      "loss": 2.184,
      "step": 2748
    },
    {
      "epoch": 0.34136346703092013,
      "grad_norm": 0.29141995310783386,
      "learning_rate": 5e-05,
      "loss": 2.1438,
      "step": 2749
    },
    {
      "epoch": 0.3414876443561406,
      "grad_norm": 0.2653254270553589,
      "learning_rate": 5e-05,
      "loss": 2.0359,
      "step": 2750
    },
    {
      "epoch": 0.341611821681361,
      "grad_norm": 0.2267696112394333,
      "learning_rate": 5e-05,
      "loss": 1.839,
      "step": 2751
    },
    {
      "epoch": 0.3417359990065814,
      "grad_norm": 0.2552401125431061,
      "learning_rate": 5e-05,
      "loss": 2.0243,
      "step": 2752
    },
    {
      "epoch": 0.3418601763318018,
      "grad_norm": 0.24397550523281097,
      "learning_rate": 5e-05,
      "loss": 1.5411,
      "step": 2753
    },
    {
      "epoch": 0.34198435365702223,
      "grad_norm": 0.2944405674934387,
      "learning_rate": 5e-05,
      "loss": 1.8792,
      "step": 2754
    },
    {
      "epoch": 0.34210853098224264,
      "grad_norm": 0.2713506519794464,
      "learning_rate": 5e-05,
      "loss": 1.8701,
      "step": 2755
    },
    {
      "epoch": 0.34223270830746305,
      "grad_norm": 0.2588428258895874,
      "learning_rate": 5e-05,
      "loss": 1.7006,
      "step": 2756
    },
    {
      "epoch": 0.34235688563268346,
      "grad_norm": 0.32673966884613037,
      "learning_rate": 5e-05,
      "loss": 2.9641,
      "step": 2757
    },
    {
      "epoch": 0.34248106295790387,
      "grad_norm": 0.29470935463905334,
      "learning_rate": 5e-05,
      "loss": 2.1214,
      "step": 2758
    },
    {
      "epoch": 0.3426052402831243,
      "grad_norm": 0.2547260820865631,
      "learning_rate": 5e-05,
      "loss": 1.7745,
      "step": 2759
    },
    {
      "epoch": 0.3427294176083447,
      "grad_norm": 0.25234735012054443,
      "learning_rate": 5e-05,
      "loss": 1.9462,
      "step": 2760
    },
    {
      "epoch": 0.34285359493356515,
      "grad_norm": 0.3391054570674896,
      "learning_rate": 5e-05,
      "loss": 2.7421,
      "step": 2761
    },
    {
      "epoch": 0.34297777225878556,
      "grad_norm": 0.24231423437595367,
      "learning_rate": 5e-05,
      "loss": 1.7373,
      "step": 2762
    },
    {
      "epoch": 0.34310194958400597,
      "grad_norm": 0.2596467435359955,
      "learning_rate": 5e-05,
      "loss": 2.0618,
      "step": 2763
    },
    {
      "epoch": 0.3432261269092264,
      "grad_norm": 0.24184861779212952,
      "learning_rate": 5e-05,
      "loss": 1.8985,
      "step": 2764
    },
    {
      "epoch": 0.3433503042344468,
      "grad_norm": 0.25749269127845764,
      "learning_rate": 5e-05,
      "loss": 2.2415,
      "step": 2765
    },
    {
      "epoch": 0.3434744815596672,
      "grad_norm": 0.23320280015468597,
      "learning_rate": 5e-05,
      "loss": 1.8246,
      "step": 2766
    },
    {
      "epoch": 0.3435986588848876,
      "grad_norm": 0.2523958384990692,
      "learning_rate": 5e-05,
      "loss": 1.854,
      "step": 2767
    },
    {
      "epoch": 0.343722836210108,
      "grad_norm": 0.27736178040504456,
      "learning_rate": 5e-05,
      "loss": 2.3073,
      "step": 2768
    },
    {
      "epoch": 0.3438470135353284,
      "grad_norm": 0.22502301633358002,
      "learning_rate": 5e-05,
      "loss": 1.8195,
      "step": 2769
    },
    {
      "epoch": 0.34397119086054884,
      "grad_norm": 0.2587378919124603,
      "learning_rate": 5e-05,
      "loss": 1.9351,
      "step": 2770
    },
    {
      "epoch": 0.3440953681857693,
      "grad_norm": 0.4828055500984192,
      "learning_rate": 5e-05,
      "loss": 2.6267,
      "step": 2771
    },
    {
      "epoch": 0.3442195455109897,
      "grad_norm": 0.41918686032295227,
      "learning_rate": 5e-05,
      "loss": 2.611,
      "step": 2772
    },
    {
      "epoch": 0.3443437228362101,
      "grad_norm": 0.23209670186042786,
      "learning_rate": 5e-05,
      "loss": 1.9922,
      "step": 2773
    },
    {
      "epoch": 0.34446790016143053,
      "grad_norm": 0.22860324382781982,
      "learning_rate": 5e-05,
      "loss": 1.6626,
      "step": 2774
    },
    {
      "epoch": 0.34459207748665094,
      "grad_norm": 0.2887635827064514,
      "learning_rate": 5e-05,
      "loss": 1.8943,
      "step": 2775
    },
    {
      "epoch": 0.34471625481187135,
      "grad_norm": 0.29355379939079285,
      "learning_rate": 5e-05,
      "loss": 2.1005,
      "step": 2776
    },
    {
      "epoch": 0.34484043213709176,
      "grad_norm": 0.38025107979774475,
      "learning_rate": 5e-05,
      "loss": 2.6319,
      "step": 2777
    },
    {
      "epoch": 0.34496460946231217,
      "grad_norm": 0.23533344268798828,
      "learning_rate": 5e-05,
      "loss": 1.7306,
      "step": 2778
    },
    {
      "epoch": 0.3450887867875326,
      "grad_norm": 0.25997745990753174,
      "learning_rate": 5e-05,
      "loss": 1.9689,
      "step": 2779
    },
    {
      "epoch": 0.345212964112753,
      "grad_norm": 0.2836317718029022,
      "learning_rate": 5e-05,
      "loss": 1.8641,
      "step": 2780
    },
    {
      "epoch": 0.34533714143797345,
      "grad_norm": 0.28725767135620117,
      "learning_rate": 5e-05,
      "loss": 2.373,
      "step": 2781
    },
    {
      "epoch": 0.34546131876319386,
      "grad_norm": 0.2814556956291199,
      "learning_rate": 5e-05,
      "loss": 2.1512,
      "step": 2782
    },
    {
      "epoch": 0.34558549608841427,
      "grad_norm": 0.6949014067649841,
      "learning_rate": 5e-05,
      "loss": 2.4138,
      "step": 2783
    },
    {
      "epoch": 0.3457096734136347,
      "grad_norm": 0.24526333808898926,
      "learning_rate": 5e-05,
      "loss": 1.7468,
      "step": 2784
    },
    {
      "epoch": 0.3458338507388551,
      "grad_norm": 0.2844972312450409,
      "learning_rate": 5e-05,
      "loss": 1.88,
      "step": 2785
    },
    {
      "epoch": 0.3459580280640755,
      "grad_norm": 0.2742244005203247,
      "learning_rate": 5e-05,
      "loss": 1.7497,
      "step": 2786
    },
    {
      "epoch": 0.3460822053892959,
      "grad_norm": 0.34010806679725647,
      "learning_rate": 5e-05,
      "loss": 2.2237,
      "step": 2787
    },
    {
      "epoch": 0.3462063827145163,
      "grad_norm": 0.22840379178524017,
      "learning_rate": 5e-05,
      "loss": 1.4986,
      "step": 2788
    },
    {
      "epoch": 0.3463305600397367,
      "grad_norm": 0.3029632568359375,
      "learning_rate": 5e-05,
      "loss": 2.168,
      "step": 2789
    },
    {
      "epoch": 0.34645473736495713,
      "grad_norm": 0.23877695202827454,
      "learning_rate": 5e-05,
      "loss": 1.7529,
      "step": 2790
    },
    {
      "epoch": 0.3465789146901776,
      "grad_norm": 0.2599693834781647,
      "learning_rate": 5e-05,
      "loss": 1.9903,
      "step": 2791
    },
    {
      "epoch": 0.346703092015398,
      "grad_norm": 0.2574094533920288,
      "learning_rate": 5e-05,
      "loss": 1.8108,
      "step": 2792
    },
    {
      "epoch": 0.3468272693406184,
      "grad_norm": 0.24192070960998535,
      "learning_rate": 5e-05,
      "loss": 1.7852,
      "step": 2793
    },
    {
      "epoch": 0.3469514466658388,
      "grad_norm": 0.3200379014015198,
      "learning_rate": 5e-05,
      "loss": 2.4943,
      "step": 2794
    },
    {
      "epoch": 0.34707562399105923,
      "grad_norm": 0.24337546527385712,
      "learning_rate": 5e-05,
      "loss": 1.7751,
      "step": 2795
    },
    {
      "epoch": 0.34719980131627964,
      "grad_norm": 0.2670900225639343,
      "learning_rate": 5e-05,
      "loss": 1.9847,
      "step": 2796
    },
    {
      "epoch": 0.34732397864150005,
      "grad_norm": 0.2614905536174774,
      "learning_rate": 5e-05,
      "loss": 1.8303,
      "step": 2797
    },
    {
      "epoch": 0.34744815596672046,
      "grad_norm": 0.2653239667415619,
      "learning_rate": 5e-05,
      "loss": 1.7893,
      "step": 2798
    },
    {
      "epoch": 0.34757233329194087,
      "grad_norm": 0.23396077752113342,
      "learning_rate": 5e-05,
      "loss": 1.8971,
      "step": 2799
    },
    {
      "epoch": 0.3476965106171613,
      "grad_norm": 0.24407877027988434,
      "learning_rate": 5e-05,
      "loss": 1.8667,
      "step": 2800
    },
    {
      "epoch": 0.34782068794238175,
      "grad_norm": 0.26523271203041077,
      "learning_rate": 5e-05,
      "loss": 2.0719,
      "step": 2801
    },
    {
      "epoch": 0.34794486526760215,
      "grad_norm": 0.279845654964447,
      "learning_rate": 5e-05,
      "loss": 2.0785,
      "step": 2802
    },
    {
      "epoch": 0.34806904259282256,
      "grad_norm": 0.3161846101284027,
      "learning_rate": 5e-05,
      "loss": 2.1301,
      "step": 2803
    },
    {
      "epoch": 0.348193219918043,
      "grad_norm": 0.2765732407569885,
      "learning_rate": 5e-05,
      "loss": 2.0976,
      "step": 2804
    },
    {
      "epoch": 0.3483173972432634,
      "grad_norm": 0.33240991830825806,
      "learning_rate": 5e-05,
      "loss": 2.2428,
      "step": 2805
    },
    {
      "epoch": 0.3484415745684838,
      "grad_norm": 0.24005700647830963,
      "learning_rate": 5e-05,
      "loss": 1.7809,
      "step": 2806
    },
    {
      "epoch": 0.3485657518937042,
      "grad_norm": 0.2592582404613495,
      "learning_rate": 5e-05,
      "loss": 1.9745,
      "step": 2807
    },
    {
      "epoch": 0.3486899292189246,
      "grad_norm": 0.2999490797519684,
      "learning_rate": 5e-05,
      "loss": 2.6955,
      "step": 2808
    },
    {
      "epoch": 0.348814106544145,
      "grad_norm": 0.259401798248291,
      "learning_rate": 5e-05,
      "loss": 1.8179,
      "step": 2809
    },
    {
      "epoch": 0.34893828386936543,
      "grad_norm": 0.24388451874256134,
      "learning_rate": 5e-05,
      "loss": 1.8819,
      "step": 2810
    },
    {
      "epoch": 0.3490624611945859,
      "grad_norm": 0.27560216188430786,
      "learning_rate": 5e-05,
      "loss": 1.8509,
      "step": 2811
    },
    {
      "epoch": 0.3491866385198063,
      "grad_norm": 0.373429536819458,
      "learning_rate": 5e-05,
      "loss": 3.1491,
      "step": 2812
    },
    {
      "epoch": 0.3493108158450267,
      "grad_norm": 0.2791976034641266,
      "learning_rate": 5e-05,
      "loss": 2.2035,
      "step": 2813
    },
    {
      "epoch": 0.3494349931702471,
      "grad_norm": 0.2509307563304901,
      "learning_rate": 5e-05,
      "loss": 1.9645,
      "step": 2814
    },
    {
      "epoch": 0.34955917049546753,
      "grad_norm": 0.2831667959690094,
      "learning_rate": 5e-05,
      "loss": 2.1522,
      "step": 2815
    },
    {
      "epoch": 0.34968334782068794,
      "grad_norm": 0.28687188029289246,
      "learning_rate": 5e-05,
      "loss": 2.1085,
      "step": 2816
    },
    {
      "epoch": 0.34980752514590835,
      "grad_norm": 0.3539823591709137,
      "learning_rate": 5e-05,
      "loss": 2.9421,
      "step": 2817
    },
    {
      "epoch": 0.34993170247112876,
      "grad_norm": 0.2686798572540283,
      "learning_rate": 5e-05,
      "loss": 1.8668,
      "step": 2818
    },
    {
      "epoch": 0.35005587979634917,
      "grad_norm": 0.24746398627758026,
      "learning_rate": 5e-05,
      "loss": 1.6538,
      "step": 2819
    },
    {
      "epoch": 0.3501800571215696,
      "grad_norm": 0.24276474118232727,
      "learning_rate": 5e-05,
      "loss": 1.9963,
      "step": 2820
    },
    {
      "epoch": 0.35030423444679004,
      "grad_norm": 0.2582096755504608,
      "learning_rate": 5e-05,
      "loss": 2.192,
      "step": 2821
    },
    {
      "epoch": 0.35042841177201045,
      "grad_norm": 0.2585619390010834,
      "learning_rate": 5e-05,
      "loss": 2.5368,
      "step": 2822
    },
    {
      "epoch": 0.35055258909723086,
      "grad_norm": 0.27060192823410034,
      "learning_rate": 5e-05,
      "loss": 2.0067,
      "step": 2823
    },
    {
      "epoch": 0.35067676642245127,
      "grad_norm": 0.3271196782588959,
      "learning_rate": 5e-05,
      "loss": 3.0698,
      "step": 2824
    },
    {
      "epoch": 0.3508009437476717,
      "grad_norm": 0.27114972472190857,
      "learning_rate": 5e-05,
      "loss": 1.9461,
      "step": 2825
    },
    {
      "epoch": 0.3509251210728921,
      "grad_norm": 0.2507452666759491,
      "learning_rate": 5e-05,
      "loss": 1.784,
      "step": 2826
    },
    {
      "epoch": 0.3510492983981125,
      "grad_norm": 0.25736528635025024,
      "learning_rate": 5e-05,
      "loss": 1.927,
      "step": 2827
    },
    {
      "epoch": 0.3511734757233329,
      "grad_norm": 0.25758883357048035,
      "learning_rate": 5e-05,
      "loss": 1.9181,
      "step": 2828
    },
    {
      "epoch": 0.3512976530485533,
      "grad_norm": 0.2678426206111908,
      "learning_rate": 5e-05,
      "loss": 1.8063,
      "step": 2829
    },
    {
      "epoch": 0.3514218303737737,
      "grad_norm": 0.220537930727005,
      "learning_rate": 5e-05,
      "loss": 1.8122,
      "step": 2830
    },
    {
      "epoch": 0.3515460076989942,
      "grad_norm": 0.23005208373069763,
      "learning_rate": 5e-05,
      "loss": 1.892,
      "step": 2831
    },
    {
      "epoch": 0.3516701850242146,
      "grad_norm": 0.3395572304725647,
      "learning_rate": 5e-05,
      "loss": 2.6256,
      "step": 2832
    },
    {
      "epoch": 0.351794362349435,
      "grad_norm": 0.26800087094306946,
      "learning_rate": 5e-05,
      "loss": 2.1189,
      "step": 2833
    },
    {
      "epoch": 0.3519185396746554,
      "grad_norm": 0.23922783136367798,
      "learning_rate": 5e-05,
      "loss": 1.9573,
      "step": 2834
    },
    {
      "epoch": 0.3520427169998758,
      "grad_norm": 0.45247089862823486,
      "learning_rate": 5e-05,
      "loss": 1.9869,
      "step": 2835
    },
    {
      "epoch": 0.35216689432509624,
      "grad_norm": 0.23645295202732086,
      "learning_rate": 5e-05,
      "loss": 1.5156,
      "step": 2836
    },
    {
      "epoch": 0.35229107165031665,
      "grad_norm": 0.5739084482192993,
      "learning_rate": 5e-05,
      "loss": 3.5006,
      "step": 2837
    },
    {
      "epoch": 0.35241524897553705,
      "grad_norm": 0.3439748287200928,
      "learning_rate": 5e-05,
      "loss": 2.6406,
      "step": 2838
    },
    {
      "epoch": 0.35253942630075746,
      "grad_norm": 0.4188997149467468,
      "learning_rate": 5e-05,
      "loss": 2.4354,
      "step": 2839
    },
    {
      "epoch": 0.3526636036259779,
      "grad_norm": 0.2544313967227936,
      "learning_rate": 5e-05,
      "loss": 1.738,
      "step": 2840
    },
    {
      "epoch": 0.35278778095119834,
      "grad_norm": 0.49748292565345764,
      "learning_rate": 5e-05,
      "loss": 3.0784,
      "step": 2841
    },
    {
      "epoch": 0.35291195827641875,
      "grad_norm": 0.26805004477500916,
      "learning_rate": 5e-05,
      "loss": 2.0459,
      "step": 2842
    },
    {
      "epoch": 0.35303613560163916,
      "grad_norm": 0.24519136548042297,
      "learning_rate": 5e-05,
      "loss": 1.941,
      "step": 2843
    },
    {
      "epoch": 0.35316031292685957,
      "grad_norm": 0.2823317050933838,
      "learning_rate": 5e-05,
      "loss": 1.7439,
      "step": 2844
    },
    {
      "epoch": 0.35328449025208,
      "grad_norm": 0.29722580313682556,
      "learning_rate": 5e-05,
      "loss": 2.2139,
      "step": 2845
    },
    {
      "epoch": 0.3534086675773004,
      "grad_norm": 0.2921779751777649,
      "learning_rate": 5e-05,
      "loss": 1.9884,
      "step": 2846
    },
    {
      "epoch": 0.3535328449025208,
      "grad_norm": 0.2357889711856842,
      "learning_rate": 5e-05,
      "loss": 1.7237,
      "step": 2847
    },
    {
      "epoch": 0.3536570222277412,
      "grad_norm": 0.23678836226463318,
      "learning_rate": 5e-05,
      "loss": 1.9301,
      "step": 2848
    },
    {
      "epoch": 0.3537811995529616,
      "grad_norm": 0.36033767461776733,
      "learning_rate": 5e-05,
      "loss": 2.1311,
      "step": 2849
    },
    {
      "epoch": 0.353905376878182,
      "grad_norm": 0.2586762011051178,
      "learning_rate": 5e-05,
      "loss": 1.7927,
      "step": 2850
    },
    {
      "epoch": 0.3540295542034025,
      "grad_norm": 0.3213244676589966,
      "learning_rate": 5e-05,
      "loss": 2.9524,
      "step": 2851
    },
    {
      "epoch": 0.3541537315286229,
      "grad_norm": 0.28174933791160583,
      "learning_rate": 5e-05,
      "loss": 2.695,
      "step": 2852
    },
    {
      "epoch": 0.3542779088538433,
      "grad_norm": 0.2555718421936035,
      "learning_rate": 5e-05,
      "loss": 1.774,
      "step": 2853
    },
    {
      "epoch": 0.3544020861790637,
      "grad_norm": 0.25043463706970215,
      "learning_rate": 5e-05,
      "loss": 1.9787,
      "step": 2854
    },
    {
      "epoch": 0.3545262635042841,
      "grad_norm": 0.31411176919937134,
      "learning_rate": 5e-05,
      "loss": 2.3861,
      "step": 2855
    },
    {
      "epoch": 0.35465044082950453,
      "grad_norm": 0.2472156286239624,
      "learning_rate": 5e-05,
      "loss": 1.9671,
      "step": 2856
    },
    {
      "epoch": 0.35477461815472494,
      "grad_norm": 0.2894991934299469,
      "learning_rate": 5e-05,
      "loss": 1.6472,
      "step": 2857
    },
    {
      "epoch": 0.35489879547994535,
      "grad_norm": 0.2334747165441513,
      "learning_rate": 5e-05,
      "loss": 1.7737,
      "step": 2858
    },
    {
      "epoch": 0.35502297280516576,
      "grad_norm": 0.39418351650238037,
      "learning_rate": 5e-05,
      "loss": 2.671,
      "step": 2859
    },
    {
      "epoch": 0.35514715013038617,
      "grad_norm": 0.25583016872406006,
      "learning_rate": 5e-05,
      "loss": 2.1107,
      "step": 2860
    },
    {
      "epoch": 0.35527132745560663,
      "grad_norm": 0.38431593775749207,
      "learning_rate": 5e-05,
      "loss": 3.1659,
      "step": 2861
    },
    {
      "epoch": 0.35539550478082704,
      "grad_norm": 0.2511475086212158,
      "learning_rate": 5e-05,
      "loss": 1.7431,
      "step": 2862
    },
    {
      "epoch": 0.35551968210604745,
      "grad_norm": 0.31024259328842163,
      "learning_rate": 5e-05,
      "loss": 1.8739,
      "step": 2863
    },
    {
      "epoch": 0.35564385943126786,
      "grad_norm": 0.29655084013938904,
      "learning_rate": 5e-05,
      "loss": 1.8697,
      "step": 2864
    },
    {
      "epoch": 0.35576803675648827,
      "grad_norm": 0.2990925908088684,
      "learning_rate": 5e-05,
      "loss": 1.8586,
      "step": 2865
    },
    {
      "epoch": 0.3558922140817087,
      "grad_norm": 0.23770806193351746,
      "learning_rate": 5e-05,
      "loss": 1.843,
      "step": 2866
    },
    {
      "epoch": 0.3560163914069291,
      "grad_norm": 0.27660104632377625,
      "learning_rate": 5e-05,
      "loss": 2.0953,
      "step": 2867
    },
    {
      "epoch": 0.3561405687321495,
      "grad_norm": 0.2534283399581909,
      "learning_rate": 5e-05,
      "loss": 1.5889,
      "step": 2868
    },
    {
      "epoch": 0.3562647460573699,
      "grad_norm": 0.26595988869667053,
      "learning_rate": 5e-05,
      "loss": 2.1211,
      "step": 2869
    },
    {
      "epoch": 0.3563889233825903,
      "grad_norm": 0.2988552153110504,
      "learning_rate": 5e-05,
      "loss": 1.921,
      "step": 2870
    },
    {
      "epoch": 0.3565131007078107,
      "grad_norm": 0.2611449062824249,
      "learning_rate": 5e-05,
      "loss": 1.8725,
      "step": 2871
    },
    {
      "epoch": 0.3566372780330312,
      "grad_norm": 0.22860753536224365,
      "learning_rate": 5e-05,
      "loss": 1.806,
      "step": 2872
    },
    {
      "epoch": 0.3567614553582516,
      "grad_norm": 0.2686806321144104,
      "learning_rate": 5e-05,
      "loss": 1.8902,
      "step": 2873
    },
    {
      "epoch": 0.356885632683472,
      "grad_norm": 0.23576751351356506,
      "learning_rate": 5e-05,
      "loss": 1.8558,
      "step": 2874
    },
    {
      "epoch": 0.3570098100086924,
      "grad_norm": 0.29896944761276245,
      "learning_rate": 5e-05,
      "loss": 2.1818,
      "step": 2875
    },
    {
      "epoch": 0.35713398733391283,
      "grad_norm": 0.2467663735151291,
      "learning_rate": 5e-05,
      "loss": 1.6375,
      "step": 2876
    },
    {
      "epoch": 0.35725816465913324,
      "grad_norm": 0.26486945152282715,
      "learning_rate": 5e-05,
      "loss": 2.0852,
      "step": 2877
    },
    {
      "epoch": 0.35738234198435365,
      "grad_norm": 0.3457930088043213,
      "learning_rate": 5e-05,
      "loss": 2.5569,
      "step": 2878
    },
    {
      "epoch": 0.35750651930957406,
      "grad_norm": 0.30438005924224854,
      "learning_rate": 5e-05,
      "loss": 2.4509,
      "step": 2879
    },
    {
      "epoch": 0.35763069663479446,
      "grad_norm": 0.2636890411376953,
      "learning_rate": 5e-05,
      "loss": 2.0939,
      "step": 2880
    },
    {
      "epoch": 0.3577548739600149,
      "grad_norm": 0.260224312543869,
      "learning_rate": 5e-05,
      "loss": 2.107,
      "step": 2881
    },
    {
      "epoch": 0.35787905128523534,
      "grad_norm": 0.47993791103363037,
      "learning_rate": 5e-05,
      "loss": 2.8968,
      "step": 2882
    },
    {
      "epoch": 0.35800322861045575,
      "grad_norm": 0.3107258975505829,
      "learning_rate": 5e-05,
      "loss": 2.4332,
      "step": 2883
    },
    {
      "epoch": 0.35812740593567616,
      "grad_norm": 0.24944131076335907,
      "learning_rate": 5e-05,
      "loss": 1.9468,
      "step": 2884
    },
    {
      "epoch": 0.35825158326089657,
      "grad_norm": 0.30719128251075745,
      "learning_rate": 5e-05,
      "loss": 2.6837,
      "step": 2885
    },
    {
      "epoch": 0.358375760586117,
      "grad_norm": 0.3071680963039398,
      "learning_rate": 5e-05,
      "loss": 2.5383,
      "step": 2886
    },
    {
      "epoch": 0.3584999379113374,
      "grad_norm": 0.33120197057724,
      "learning_rate": 5e-05,
      "loss": 2.2859,
      "step": 2887
    },
    {
      "epoch": 0.3586241152365578,
      "grad_norm": 0.22975130379199982,
      "learning_rate": 5e-05,
      "loss": 1.7,
      "step": 2888
    },
    {
      "epoch": 0.3587482925617782,
      "grad_norm": 0.29023388028144836,
      "learning_rate": 5e-05,
      "loss": 1.9831,
      "step": 2889
    },
    {
      "epoch": 0.3588724698869986,
      "grad_norm": 0.28600960969924927,
      "learning_rate": 5e-05,
      "loss": 2.3528,
      "step": 2890
    },
    {
      "epoch": 0.358996647212219,
      "grad_norm": 0.2461761087179184,
      "learning_rate": 5e-05,
      "loss": 1.7646,
      "step": 2891
    },
    {
      "epoch": 0.3591208245374395,
      "grad_norm": 0.3595605492591858,
      "learning_rate": 5e-05,
      "loss": 2.4973,
      "step": 2892
    },
    {
      "epoch": 0.3592450018626599,
      "grad_norm": 0.25128260254859924,
      "learning_rate": 5e-05,
      "loss": 2.0308,
      "step": 2893
    },
    {
      "epoch": 0.3593691791878803,
      "grad_norm": 0.3829328119754791,
      "learning_rate": 5e-05,
      "loss": 3.1022,
      "step": 2894
    },
    {
      "epoch": 0.3594933565131007,
      "grad_norm": 0.2549037039279938,
      "learning_rate": 5e-05,
      "loss": 2.2065,
      "step": 2895
    },
    {
      "epoch": 0.3596175338383211,
      "grad_norm": 0.2445104420185089,
      "learning_rate": 5e-05,
      "loss": 1.8553,
      "step": 2896
    },
    {
      "epoch": 0.35974171116354153,
      "grad_norm": 0.25458046793937683,
      "learning_rate": 5e-05,
      "loss": 1.8411,
      "step": 2897
    },
    {
      "epoch": 0.35986588848876194,
      "grad_norm": 0.34245961904525757,
      "learning_rate": 5e-05,
      "loss": 2.0043,
      "step": 2898
    },
    {
      "epoch": 0.35999006581398235,
      "grad_norm": 0.2767278552055359,
      "learning_rate": 5e-05,
      "loss": 2.3841,
      "step": 2899
    },
    {
      "epoch": 0.36011424313920276,
      "grad_norm": 0.27056533098220825,
      "learning_rate": 5e-05,
      "loss": 1.9964,
      "step": 2900
    },
    {
      "epoch": 0.36023842046442317,
      "grad_norm": 0.24606953561306,
      "learning_rate": 5e-05,
      "loss": 1.6673,
      "step": 2901
    },
    {
      "epoch": 0.36036259778964363,
      "grad_norm": 0.25140783190727234,
      "learning_rate": 5e-05,
      "loss": 1.7711,
      "step": 2902
    },
    {
      "epoch": 0.36048677511486404,
      "grad_norm": 0.25976094603538513,
      "learning_rate": 5e-05,
      "loss": 1.9651,
      "step": 2903
    },
    {
      "epoch": 0.36061095244008445,
      "grad_norm": 0.30861905217170715,
      "learning_rate": 5e-05,
      "loss": 2.4284,
      "step": 2904
    },
    {
      "epoch": 0.36073512976530486,
      "grad_norm": 0.2554759681224823,
      "learning_rate": 5e-05,
      "loss": 1.6431,
      "step": 2905
    },
    {
      "epoch": 0.36085930709052527,
      "grad_norm": 0.45448505878448486,
      "learning_rate": 5e-05,
      "loss": 2.5967,
      "step": 2906
    },
    {
      "epoch": 0.3609834844157457,
      "grad_norm": 0.24251489341259003,
      "learning_rate": 5e-05,
      "loss": 1.9179,
      "step": 2907
    },
    {
      "epoch": 0.3611076617409661,
      "grad_norm": 0.28351014852523804,
      "learning_rate": 5e-05,
      "loss": 2.3383,
      "step": 2908
    },
    {
      "epoch": 0.3612318390661865,
      "grad_norm": 0.3094342052936554,
      "learning_rate": 5e-05,
      "loss": 2.4563,
      "step": 2909
    },
    {
      "epoch": 0.3613560163914069,
      "grad_norm": 0.25680920481681824,
      "learning_rate": 5e-05,
      "loss": 1.774,
      "step": 2910
    },
    {
      "epoch": 0.3614801937166273,
      "grad_norm": 0.25995075702667236,
      "learning_rate": 5e-05,
      "loss": 1.9433,
      "step": 2911
    },
    {
      "epoch": 0.3616043710418478,
      "grad_norm": 0.2613772749900818,
      "learning_rate": 5e-05,
      "loss": 2.2555,
      "step": 2912
    },
    {
      "epoch": 0.3617285483670682,
      "grad_norm": 0.2489282786846161,
      "learning_rate": 5e-05,
      "loss": 1.937,
      "step": 2913
    },
    {
      "epoch": 0.3618527256922886,
      "grad_norm": 0.23898090422153473,
      "learning_rate": 5e-05,
      "loss": 1.5986,
      "step": 2914
    },
    {
      "epoch": 0.361976903017509,
      "grad_norm": 0.23500391840934753,
      "learning_rate": 5e-05,
      "loss": 1.8752,
      "step": 2915
    },
    {
      "epoch": 0.3621010803427294,
      "grad_norm": 0.24279162287712097,
      "learning_rate": 5e-05,
      "loss": 1.7808,
      "step": 2916
    },
    {
      "epoch": 0.36222525766794983,
      "grad_norm": 0.24957755208015442,
      "learning_rate": 5e-05,
      "loss": 2.1986,
      "step": 2917
    },
    {
      "epoch": 0.36234943499317024,
      "grad_norm": 0.40013664960861206,
      "learning_rate": 5e-05,
      "loss": 2.8486,
      "step": 2918
    },
    {
      "epoch": 0.36247361231839065,
      "grad_norm": 0.27326327562332153,
      "learning_rate": 5e-05,
      "loss": 2.5734,
      "step": 2919
    },
    {
      "epoch": 0.36259778964361106,
      "grad_norm": 0.2527517080307007,
      "learning_rate": 5e-05,
      "loss": 1.9826,
      "step": 2920
    },
    {
      "epoch": 0.36272196696883147,
      "grad_norm": 0.25144174695014954,
      "learning_rate": 5e-05,
      "loss": 1.7099,
      "step": 2921
    },
    {
      "epoch": 0.36284614429405193,
      "grad_norm": 0.26282787322998047,
      "learning_rate": 5e-05,
      "loss": 1.723,
      "step": 2922
    },
    {
      "epoch": 0.36297032161927234,
      "grad_norm": 0.24631480872631073,
      "learning_rate": 5e-05,
      "loss": 2.0645,
      "step": 2923
    },
    {
      "epoch": 0.36309449894449275,
      "grad_norm": 0.2382902204990387,
      "learning_rate": 5e-05,
      "loss": 1.8514,
      "step": 2924
    },
    {
      "epoch": 0.36321867626971316,
      "grad_norm": 0.2269415706396103,
      "learning_rate": 5e-05,
      "loss": 1.8595,
      "step": 2925
    },
    {
      "epoch": 0.36334285359493357,
      "grad_norm": 0.3079279065132141,
      "learning_rate": 5e-05,
      "loss": 2.2139,
      "step": 2926
    },
    {
      "epoch": 0.363467030920154,
      "grad_norm": 0.25768083333969116,
      "learning_rate": 5e-05,
      "loss": 1.7746,
      "step": 2927
    },
    {
      "epoch": 0.3635912082453744,
      "grad_norm": 0.27373677492141724,
      "learning_rate": 5e-05,
      "loss": 2.4941,
      "step": 2928
    },
    {
      "epoch": 0.3637153855705948,
      "grad_norm": 0.23796309530735016,
      "learning_rate": 5e-05,
      "loss": 1.8657,
      "step": 2929
    },
    {
      "epoch": 0.3638395628958152,
      "grad_norm": 0.24157953262329102,
      "learning_rate": 5e-05,
      "loss": 1.927,
      "step": 2930
    },
    {
      "epoch": 0.3639637402210356,
      "grad_norm": 0.23541103303432465,
      "learning_rate": 5e-05,
      "loss": 1.9038,
      "step": 2931
    },
    {
      "epoch": 0.3640879175462561,
      "grad_norm": 0.29722172021865845,
      "learning_rate": 5e-05,
      "loss": 2.4113,
      "step": 2932
    },
    {
      "epoch": 0.3642120948714765,
      "grad_norm": 0.4047267436981201,
      "learning_rate": 5e-05,
      "loss": 2.958,
      "step": 2933
    },
    {
      "epoch": 0.3643362721966969,
      "grad_norm": 0.25163036584854126,
      "learning_rate": 5e-05,
      "loss": 2.0361,
      "step": 2934
    },
    {
      "epoch": 0.3644604495219173,
      "grad_norm": 0.22635877132415771,
      "learning_rate": 5e-05,
      "loss": 1.681,
      "step": 2935
    },
    {
      "epoch": 0.3645846268471377,
      "grad_norm": 0.23741143941879272,
      "learning_rate": 5e-05,
      "loss": 1.7251,
      "step": 2936
    },
    {
      "epoch": 0.3647088041723581,
      "grad_norm": 0.28617551922798157,
      "learning_rate": 5e-05,
      "loss": 2.1297,
      "step": 2937
    },
    {
      "epoch": 0.36483298149757853,
      "grad_norm": 0.27699974179267883,
      "learning_rate": 5e-05,
      "loss": 2.1108,
      "step": 2938
    },
    {
      "epoch": 0.36495715882279894,
      "grad_norm": 0.22934754192829132,
      "learning_rate": 5e-05,
      "loss": 1.5672,
      "step": 2939
    },
    {
      "epoch": 0.36508133614801935,
      "grad_norm": 0.290359228849411,
      "learning_rate": 5e-05,
      "loss": 2.3294,
      "step": 2940
    },
    {
      "epoch": 0.36520551347323976,
      "grad_norm": 0.23602132499217987,
      "learning_rate": 5e-05,
      "loss": 1.7783,
      "step": 2941
    },
    {
      "epoch": 0.3653296907984602,
      "grad_norm": 0.358762264251709,
      "learning_rate": 5e-05,
      "loss": 2.8368,
      "step": 2942
    },
    {
      "epoch": 0.36545386812368064,
      "grad_norm": 0.22189496457576752,
      "learning_rate": 5e-05,
      "loss": 1.6123,
      "step": 2943
    },
    {
      "epoch": 0.36557804544890105,
      "grad_norm": 0.2998792231082916,
      "learning_rate": 5e-05,
      "loss": 2.1474,
      "step": 2944
    },
    {
      "epoch": 0.36570222277412145,
      "grad_norm": 0.5736348628997803,
      "learning_rate": 5e-05,
      "loss": 3.4069,
      "step": 2945
    },
    {
      "epoch": 0.36582640009934186,
      "grad_norm": 0.2841154932975769,
      "learning_rate": 5e-05,
      "loss": 2.2049,
      "step": 2946
    },
    {
      "epoch": 0.3659505774245623,
      "grad_norm": 0.23865941166877747,
      "learning_rate": 5e-05,
      "loss": 1.7721,
      "step": 2947
    },
    {
      "epoch": 0.3660747547497827,
      "grad_norm": 0.22311750054359436,
      "learning_rate": 5e-05,
      "loss": 1.713,
      "step": 2948
    },
    {
      "epoch": 0.3661989320750031,
      "grad_norm": 0.25039970874786377,
      "learning_rate": 5e-05,
      "loss": 1.9432,
      "step": 2949
    },
    {
      "epoch": 0.3663231094002235,
      "grad_norm": 0.3837128281593323,
      "learning_rate": 5e-05,
      "loss": 2.735,
      "step": 2950
    },
    {
      "epoch": 0.3664472867254439,
      "grad_norm": 0.23523934185504913,
      "learning_rate": 5e-05,
      "loss": 1.7337,
      "step": 2951
    },
    {
      "epoch": 0.3665714640506644,
      "grad_norm": 0.24660135805606842,
      "learning_rate": 5e-05,
      "loss": 2.1519,
      "step": 2952
    },
    {
      "epoch": 0.3666956413758848,
      "grad_norm": 0.23488986492156982,
      "learning_rate": 5e-05,
      "loss": 1.8632,
      "step": 2953
    },
    {
      "epoch": 0.3668198187011052,
      "grad_norm": 0.24533359706401825,
      "learning_rate": 5e-05,
      "loss": 1.8495,
      "step": 2954
    },
    {
      "epoch": 0.3669439960263256,
      "grad_norm": 0.22848857939243317,
      "learning_rate": 5e-05,
      "loss": 1.649,
      "step": 2955
    },
    {
      "epoch": 0.367068173351546,
      "grad_norm": 0.29741668701171875,
      "learning_rate": 5e-05,
      "loss": 2.4278,
      "step": 2956
    },
    {
      "epoch": 0.3671923506767664,
      "grad_norm": 0.2609666883945465,
      "learning_rate": 5e-05,
      "loss": 1.8476,
      "step": 2957
    },
    {
      "epoch": 0.36731652800198683,
      "grad_norm": 0.23846489191055298,
      "learning_rate": 5e-05,
      "loss": 1.7979,
      "step": 2958
    },
    {
      "epoch": 0.36744070532720724,
      "grad_norm": 0.2519788444042206,
      "learning_rate": 5e-05,
      "loss": 1.9826,
      "step": 2959
    },
    {
      "epoch": 0.36756488265242765,
      "grad_norm": 0.2400158792734146,
      "learning_rate": 5e-05,
      "loss": 2.1669,
      "step": 2960
    },
    {
      "epoch": 0.36768905997764806,
      "grad_norm": 0.2306850552558899,
      "learning_rate": 5e-05,
      "loss": 1.7329,
      "step": 2961
    },
    {
      "epoch": 0.3678132373028685,
      "grad_norm": 0.30840304493904114,
      "learning_rate": 5e-05,
      "loss": 2.4956,
      "step": 2962
    },
    {
      "epoch": 0.36793741462808893,
      "grad_norm": 0.24921832978725433,
      "learning_rate": 5e-05,
      "loss": 1.8325,
      "step": 2963
    },
    {
      "epoch": 0.36806159195330934,
      "grad_norm": 0.39718326926231384,
      "learning_rate": 5e-05,
      "loss": 2.9512,
      "step": 2964
    },
    {
      "epoch": 0.36818576927852975,
      "grad_norm": 0.2490706890821457,
      "learning_rate": 5e-05,
      "loss": 1.9539,
      "step": 2965
    },
    {
      "epoch": 0.36830994660375016,
      "grad_norm": 0.28754961490631104,
      "learning_rate": 5e-05,
      "loss": 2.2399,
      "step": 2966
    },
    {
      "epoch": 0.36843412392897057,
      "grad_norm": 0.23727400600910187,
      "learning_rate": 5e-05,
      "loss": 1.5687,
      "step": 2967
    },
    {
      "epoch": 0.368558301254191,
      "grad_norm": 0.305165559053421,
      "learning_rate": 5e-05,
      "loss": 1.9375,
      "step": 2968
    },
    {
      "epoch": 0.3686824785794114,
      "grad_norm": 0.28188270330429077,
      "learning_rate": 5e-05,
      "loss": 2.0947,
      "step": 2969
    },
    {
      "epoch": 0.3688066559046318,
      "grad_norm": 0.26603934168815613,
      "learning_rate": 5e-05,
      "loss": 2.0655,
      "step": 2970
    },
    {
      "epoch": 0.3689308332298522,
      "grad_norm": 0.2558739483356476,
      "learning_rate": 5e-05,
      "loss": 1.9905,
      "step": 2971
    },
    {
      "epoch": 0.36905501055507267,
      "grad_norm": 0.25798073410987854,
      "learning_rate": 5e-05,
      "loss": 1.7421,
      "step": 2972
    },
    {
      "epoch": 0.3691791878802931,
      "grad_norm": 0.2610643804073334,
      "learning_rate": 5e-05,
      "loss": 1.8458,
      "step": 2973
    },
    {
      "epoch": 0.3693033652055135,
      "grad_norm": 0.2506898045539856,
      "learning_rate": 5e-05,
      "loss": 1.6336,
      "step": 2974
    },
    {
      "epoch": 0.3694275425307339,
      "grad_norm": 0.23491260409355164,
      "learning_rate": 5e-05,
      "loss": 1.9506,
      "step": 2975
    },
    {
      "epoch": 0.3695517198559543,
      "grad_norm": 0.35647445917129517,
      "learning_rate": 5e-05,
      "loss": 2.8191,
      "step": 2976
    },
    {
      "epoch": 0.3696758971811747,
      "grad_norm": 0.2702166438102722,
      "learning_rate": 5e-05,
      "loss": 2.1857,
      "step": 2977
    },
    {
      "epoch": 0.3698000745063951,
      "grad_norm": 0.33380377292633057,
      "learning_rate": 5e-05,
      "loss": 2.4216,
      "step": 2978
    },
    {
      "epoch": 0.36992425183161554,
      "grad_norm": 0.24738530814647675,
      "learning_rate": 5e-05,
      "loss": 1.8974,
      "step": 2979
    },
    {
      "epoch": 0.37004842915683595,
      "grad_norm": 0.2719271779060364,
      "learning_rate": 5e-05,
      "loss": 2.2517,
      "step": 2980
    },
    {
      "epoch": 0.37017260648205635,
      "grad_norm": 0.29274439811706543,
      "learning_rate": 5e-05,
      "loss": 2.6857,
      "step": 2981
    },
    {
      "epoch": 0.37029678380727676,
      "grad_norm": 0.23504342138767242,
      "learning_rate": 5e-05,
      "loss": 1.8174,
      "step": 2982
    },
    {
      "epoch": 0.37042096113249723,
      "grad_norm": 0.26716282963752747,
      "learning_rate": 5e-05,
      "loss": 2.2242,
      "step": 2983
    },
    {
      "epoch": 0.37054513845771764,
      "grad_norm": 0.2464313805103302,
      "learning_rate": 5e-05,
      "loss": 1.8624,
      "step": 2984
    },
    {
      "epoch": 0.37066931578293805,
      "grad_norm": 0.2445826530456543,
      "learning_rate": 5e-05,
      "loss": 1.9853,
      "step": 2985
    },
    {
      "epoch": 0.37079349310815846,
      "grad_norm": 0.22842368483543396,
      "learning_rate": 5e-05,
      "loss": 1.593,
      "step": 2986
    },
    {
      "epoch": 0.37091767043337887,
      "grad_norm": 0.34224873781204224,
      "learning_rate": 5e-05,
      "loss": 2.9265,
      "step": 2987
    },
    {
      "epoch": 0.3710418477585993,
      "grad_norm": 0.24113371968269348,
      "learning_rate": 5e-05,
      "loss": 1.9255,
      "step": 2988
    },
    {
      "epoch": 0.3711660250838197,
      "grad_norm": 0.2746451497077942,
      "learning_rate": 5e-05,
      "loss": 2.3531,
      "step": 2989
    },
    {
      "epoch": 0.3712902024090401,
      "grad_norm": 0.38261857628822327,
      "learning_rate": 5e-05,
      "loss": 2.7068,
      "step": 2990
    },
    {
      "epoch": 0.3714143797342605,
      "grad_norm": 0.27590250968933105,
      "learning_rate": 5e-05,
      "loss": 3.0103,
      "step": 2991
    },
    {
      "epoch": 0.3715385570594809,
      "grad_norm": 0.2449302077293396,
      "learning_rate": 5e-05,
      "loss": 1.8079,
      "step": 2992
    },
    {
      "epoch": 0.3716627343847014,
      "grad_norm": 0.27541065216064453,
      "learning_rate": 5e-05,
      "loss": 2.1987,
      "step": 2993
    },
    {
      "epoch": 0.3717869117099218,
      "grad_norm": 0.2601505517959595,
      "learning_rate": 5e-05,
      "loss": 2.1561,
      "step": 2994
    },
    {
      "epoch": 0.3719110890351422,
      "grad_norm": 0.26446446776390076,
      "learning_rate": 5e-05,
      "loss": 2.583,
      "step": 2995
    },
    {
      "epoch": 0.3720352663603626,
      "grad_norm": 0.3079470992088318,
      "learning_rate": 5e-05,
      "loss": 2.1146,
      "step": 2996
    },
    {
      "epoch": 0.372159443685583,
      "grad_norm": 0.257081538438797,
      "learning_rate": 5e-05,
      "loss": 1.9308,
      "step": 2997
    },
    {
      "epoch": 0.3722836210108034,
      "grad_norm": 0.35725364089012146,
      "learning_rate": 5e-05,
      "loss": 2.7511,
      "step": 2998
    },
    {
      "epoch": 0.37240779833602383,
      "grad_norm": 0.25790297985076904,
      "learning_rate": 5e-05,
      "loss": 1.8293,
      "step": 2999
    },
    {
      "epoch": 0.37253197566124424,
      "grad_norm": 0.23215192556381226,
      "learning_rate": 5e-05,
      "loss": 1.8764,
      "step": 3000
    },
    {
      "epoch": 0.37265615298646465,
      "grad_norm": 0.2362801432609558,
      "learning_rate": 5e-05,
      "loss": 1.7332,
      "step": 3001
    },
    {
      "epoch": 0.37278033031168506,
      "grad_norm": 0.27961817383766174,
      "learning_rate": 5e-05,
      "loss": 2.1698,
      "step": 3002
    },
    {
      "epoch": 0.3729045076369055,
      "grad_norm": 0.2894803583621979,
      "learning_rate": 5e-05,
      "loss": 2.3506,
      "step": 3003
    },
    {
      "epoch": 0.37302868496212593,
      "grad_norm": 0.270277202129364,
      "learning_rate": 5e-05,
      "loss": 1.9794,
      "step": 3004
    },
    {
      "epoch": 0.37315286228734634,
      "grad_norm": 0.28091710805892944,
      "learning_rate": 5e-05,
      "loss": 2.5896,
      "step": 3005
    },
    {
      "epoch": 0.37327703961256675,
      "grad_norm": 0.2714832127094269,
      "learning_rate": 5e-05,
      "loss": 1.8102,
      "step": 3006
    },
    {
      "epoch": 0.37340121693778716,
      "grad_norm": 0.2245844006538391,
      "learning_rate": 5e-05,
      "loss": 1.6682,
      "step": 3007
    },
    {
      "epoch": 0.37352539426300757,
      "grad_norm": 0.2773212492465973,
      "learning_rate": 5e-05,
      "loss": 2.1679,
      "step": 3008
    },
    {
      "epoch": 0.373649571588228,
      "grad_norm": 0.48758503794670105,
      "learning_rate": 5e-05,
      "loss": 3.7298,
      "step": 3009
    },
    {
      "epoch": 0.3737737489134484,
      "grad_norm": 0.315660297870636,
      "learning_rate": 5e-05,
      "loss": 2.2886,
      "step": 3010
    },
    {
      "epoch": 0.3738979262386688,
      "grad_norm": 0.2623748779296875,
      "learning_rate": 5e-05,
      "loss": 1.9723,
      "step": 3011
    },
    {
      "epoch": 0.3740221035638892,
      "grad_norm": 0.2322576344013214,
      "learning_rate": 5e-05,
      "loss": 1.6699,
      "step": 3012
    },
    {
      "epoch": 0.3741462808891097,
      "grad_norm": 0.2369822859764099,
      "learning_rate": 5e-05,
      "loss": 1.7811,
      "step": 3013
    },
    {
      "epoch": 0.3742704582143301,
      "grad_norm": 0.28074389696121216,
      "learning_rate": 5e-05,
      "loss": 2.1291,
      "step": 3014
    },
    {
      "epoch": 0.3743946355395505,
      "grad_norm": 0.4174252450466156,
      "learning_rate": 5e-05,
      "loss": 2.8298,
      "step": 3015
    },
    {
      "epoch": 0.3745188128647709,
      "grad_norm": 0.23224391043186188,
      "learning_rate": 5e-05,
      "loss": 1.8149,
      "step": 3016
    },
    {
      "epoch": 0.3746429901899913,
      "grad_norm": 0.24870234727859497,
      "learning_rate": 5e-05,
      "loss": 1.9722,
      "step": 3017
    },
    {
      "epoch": 0.3747671675152117,
      "grad_norm": 0.2690788209438324,
      "learning_rate": 5e-05,
      "loss": 2.0374,
      "step": 3018
    },
    {
      "epoch": 0.37489134484043213,
      "grad_norm": 0.25183412432670593,
      "learning_rate": 5e-05,
      "loss": 1.8474,
      "step": 3019
    },
    {
      "epoch": 0.37501552216565254,
      "grad_norm": 0.2733623683452606,
      "learning_rate": 5e-05,
      "loss": 1.9086,
      "step": 3020
    },
    {
      "epoch": 0.37513969949087295,
      "grad_norm": 0.27452918887138367,
      "learning_rate": 5e-05,
      "loss": 2.5931,
      "step": 3021
    },
    {
      "epoch": 0.37526387681609336,
      "grad_norm": 0.25457167625427246,
      "learning_rate": 5e-05,
      "loss": 1.7968,
      "step": 3022
    },
    {
      "epoch": 0.3753880541413138,
      "grad_norm": 0.2338773012161255,
      "learning_rate": 5e-05,
      "loss": 1.7335,
      "step": 3023
    },
    {
      "epoch": 0.37551223146653423,
      "grad_norm": 0.3729333281517029,
      "learning_rate": 5e-05,
      "loss": 3.6581,
      "step": 3024
    },
    {
      "epoch": 0.37563640879175464,
      "grad_norm": 0.23814961314201355,
      "learning_rate": 5e-05,
      "loss": 1.8734,
      "step": 3025
    },
    {
      "epoch": 0.37576058611697505,
      "grad_norm": 0.34748411178588867,
      "learning_rate": 5e-05,
      "loss": 2.5288,
      "step": 3026
    },
    {
      "epoch": 0.37588476344219546,
      "grad_norm": 0.2398747205734253,
      "learning_rate": 5e-05,
      "loss": 1.8456,
      "step": 3027
    },
    {
      "epoch": 0.37600894076741587,
      "grad_norm": 0.2524730861186981,
      "learning_rate": 5e-05,
      "loss": 2.1373,
      "step": 3028
    },
    {
      "epoch": 0.3761331180926363,
      "grad_norm": 0.24938613176345825,
      "learning_rate": 5e-05,
      "loss": 1.793,
      "step": 3029
    },
    {
      "epoch": 0.3762572954178567,
      "grad_norm": 0.28319695591926575,
      "learning_rate": 5e-05,
      "loss": 2.0707,
      "step": 3030
    },
    {
      "epoch": 0.3763814727430771,
      "grad_norm": 0.30263859033584595,
      "learning_rate": 5e-05,
      "loss": 2.0355,
      "step": 3031
    },
    {
      "epoch": 0.3765056500682975,
      "grad_norm": 0.378948837518692,
      "learning_rate": 5e-05,
      "loss": 2.8577,
      "step": 3032
    },
    {
      "epoch": 0.37662982739351797,
      "grad_norm": 0.2410057783126831,
      "learning_rate": 5e-05,
      "loss": 1.8902,
      "step": 3033
    },
    {
      "epoch": 0.3767540047187384,
      "grad_norm": 0.4981403946876526,
      "learning_rate": 5e-05,
      "loss": 3.5521,
      "step": 3034
    },
    {
      "epoch": 0.3768781820439588,
      "grad_norm": 0.3131057322025299,
      "learning_rate": 5e-05,
      "loss": 1.9305,
      "step": 3035
    },
    {
      "epoch": 0.3770023593691792,
      "grad_norm": 0.2883146107196808,
      "learning_rate": 5e-05,
      "loss": 2.1817,
      "step": 3036
    },
    {
      "epoch": 0.3771265366943996,
      "grad_norm": 0.3231603801250458,
      "learning_rate": 5e-05,
      "loss": 2.2781,
      "step": 3037
    },
    {
      "epoch": 0.37725071401962,
      "grad_norm": 0.28259745240211487,
      "learning_rate": 5e-05,
      "loss": 1.9511,
      "step": 3038
    },
    {
      "epoch": 0.3773748913448404,
      "grad_norm": 0.25022047758102417,
      "learning_rate": 5e-05,
      "loss": 2.1814,
      "step": 3039
    },
    {
      "epoch": 0.37749906867006083,
      "grad_norm": 0.330522745847702,
      "learning_rate": 5e-05,
      "loss": 2.1897,
      "step": 3040
    },
    {
      "epoch": 0.37762324599528124,
      "grad_norm": 0.2720044255256653,
      "learning_rate": 5e-05,
      "loss": 1.886,
      "step": 3041
    },
    {
      "epoch": 0.37774742332050165,
      "grad_norm": 0.24297118186950684,
      "learning_rate": 5e-05,
      "loss": 1.8226,
      "step": 3042
    },
    {
      "epoch": 0.3778716006457221,
      "grad_norm": 0.2740362584590912,
      "learning_rate": 5e-05,
      "loss": 2.7123,
      "step": 3043
    },
    {
      "epoch": 0.3779957779709425,
      "grad_norm": 0.2390010505914688,
      "learning_rate": 5e-05,
      "loss": 2.0261,
      "step": 3044
    },
    {
      "epoch": 0.37811995529616294,
      "grad_norm": 0.23411433398723602,
      "learning_rate": 5e-05,
      "loss": 1.7159,
      "step": 3045
    },
    {
      "epoch": 0.37824413262138334,
      "grad_norm": 0.25204479694366455,
      "learning_rate": 5e-05,
      "loss": 1.9457,
      "step": 3046
    },
    {
      "epoch": 0.37836830994660375,
      "grad_norm": 0.30702662467956543,
      "learning_rate": 5e-05,
      "loss": 2.9443,
      "step": 3047
    },
    {
      "epoch": 0.37849248727182416,
      "grad_norm": 0.24769099056720734,
      "learning_rate": 5e-05,
      "loss": 1.8795,
      "step": 3048
    },
    {
      "epoch": 0.37861666459704457,
      "grad_norm": 0.3070371747016907,
      "learning_rate": 5e-05,
      "loss": 2.0756,
      "step": 3049
    },
    {
      "epoch": 0.378740841922265,
      "grad_norm": 0.2854249179363251,
      "learning_rate": 5e-05,
      "loss": 2.884,
      "step": 3050
    },
    {
      "epoch": 0.3788650192474854,
      "grad_norm": 0.2308148890733719,
      "learning_rate": 5e-05,
      "loss": 1.7609,
      "step": 3051
    },
    {
      "epoch": 0.3789891965727058,
      "grad_norm": 0.26897910237312317,
      "learning_rate": 5e-05,
      "loss": 1.9236,
      "step": 3052
    },
    {
      "epoch": 0.37911337389792626,
      "grad_norm": 0.247316375374794,
      "learning_rate": 5e-05,
      "loss": 1.8316,
      "step": 3053
    },
    {
      "epoch": 0.3792375512231467,
      "grad_norm": 0.2425869256258011,
      "learning_rate": 5e-05,
      "loss": 1.7214,
      "step": 3054
    },
    {
      "epoch": 0.3793617285483671,
      "grad_norm": 0.25680699944496155,
      "learning_rate": 5e-05,
      "loss": 2.181,
      "step": 3055
    },
    {
      "epoch": 0.3794859058735875,
      "grad_norm": 0.24144139885902405,
      "learning_rate": 5e-05,
      "loss": 1.8867,
      "step": 3056
    },
    {
      "epoch": 0.3796100831988079,
      "grad_norm": 0.254015177488327,
      "learning_rate": 5e-05,
      "loss": 1.9029,
      "step": 3057
    },
    {
      "epoch": 0.3797342605240283,
      "grad_norm": 0.2578611671924591,
      "learning_rate": 5e-05,
      "loss": 2.0254,
      "step": 3058
    },
    {
      "epoch": 0.3798584378492487,
      "grad_norm": 0.25550350546836853,
      "learning_rate": 5e-05,
      "loss": 1.8893,
      "step": 3059
    },
    {
      "epoch": 0.37998261517446913,
      "grad_norm": 0.25460711121559143,
      "learning_rate": 5e-05,
      "loss": 2.0101,
      "step": 3060
    },
    {
      "epoch": 0.38010679249968954,
      "grad_norm": 0.272898405790329,
      "learning_rate": 5e-05,
      "loss": 2.3676,
      "step": 3061
    },
    {
      "epoch": 0.38023096982490995,
      "grad_norm": 0.25451529026031494,
      "learning_rate": 5e-05,
      "loss": 1.8787,
      "step": 3062
    },
    {
      "epoch": 0.3803551471501304,
      "grad_norm": 0.3461076021194458,
      "learning_rate": 5e-05,
      "loss": 3.0211,
      "step": 3063
    },
    {
      "epoch": 0.3804793244753508,
      "grad_norm": 0.33161431550979614,
      "learning_rate": 5e-05,
      "loss": 2.2867,
      "step": 3064
    },
    {
      "epoch": 0.38060350180057123,
      "grad_norm": 0.2653665840625763,
      "learning_rate": 5e-05,
      "loss": 1.9843,
      "step": 3065
    },
    {
      "epoch": 0.38072767912579164,
      "grad_norm": 0.23903197050094604,
      "learning_rate": 5e-05,
      "loss": 1.6816,
      "step": 3066
    },
    {
      "epoch": 0.38085185645101205,
      "grad_norm": 0.30219846963882446,
      "learning_rate": 5e-05,
      "loss": 2.396,
      "step": 3067
    },
    {
      "epoch": 0.38097603377623246,
      "grad_norm": 0.31168368458747864,
      "learning_rate": 5e-05,
      "loss": 2.7844,
      "step": 3068
    },
    {
      "epoch": 0.38110021110145287,
      "grad_norm": 0.2687379717826843,
      "learning_rate": 5e-05,
      "loss": 1.8187,
      "step": 3069
    },
    {
      "epoch": 0.3812243884266733,
      "grad_norm": 0.2609599232673645,
      "learning_rate": 5e-05,
      "loss": 1.8091,
      "step": 3070
    },
    {
      "epoch": 0.3813485657518937,
      "grad_norm": 0.23718082904815674,
      "learning_rate": 5e-05,
      "loss": 1.7568,
      "step": 3071
    },
    {
      "epoch": 0.3814727430771141,
      "grad_norm": 0.23861859738826752,
      "learning_rate": 5e-05,
      "loss": 1.7172,
      "step": 3072
    },
    {
      "epoch": 0.38159692040233456,
      "grad_norm": 0.27551525831222534,
      "learning_rate": 5e-05,
      "loss": 2.0051,
      "step": 3073
    },
    {
      "epoch": 0.38172109772755497,
      "grad_norm": 0.27747848629951477,
      "learning_rate": 5e-05,
      "loss": 1.8958,
      "step": 3074
    },
    {
      "epoch": 0.3818452750527754,
      "grad_norm": 0.2449251115322113,
      "learning_rate": 5e-05,
      "loss": 1.7087,
      "step": 3075
    },
    {
      "epoch": 0.3819694523779958,
      "grad_norm": 0.24824030697345734,
      "learning_rate": 5e-05,
      "loss": 1.9133,
      "step": 3076
    },
    {
      "epoch": 0.3820936297032162,
      "grad_norm": 0.3007103204727173,
      "learning_rate": 5e-05,
      "loss": 2.3038,
      "step": 3077
    },
    {
      "epoch": 0.3822178070284366,
      "grad_norm": 0.25122156739234924,
      "learning_rate": 5e-05,
      "loss": 1.8165,
      "step": 3078
    },
    {
      "epoch": 0.382341984353657,
      "grad_norm": 0.2511250078678131,
      "learning_rate": 5e-05,
      "loss": 1.7301,
      "step": 3079
    },
    {
      "epoch": 0.3824661616788774,
      "grad_norm": 0.2638435959815979,
      "learning_rate": 5e-05,
      "loss": 1.7817,
      "step": 3080
    },
    {
      "epoch": 0.38259033900409783,
      "grad_norm": 0.25206121802330017,
      "learning_rate": 5e-05,
      "loss": 1.7258,
      "step": 3081
    },
    {
      "epoch": 0.38271451632931824,
      "grad_norm": 0.2951272130012512,
      "learning_rate": 5e-05,
      "loss": 2.5512,
      "step": 3082
    },
    {
      "epoch": 0.3828386936545387,
      "grad_norm": 0.3649168908596039,
      "learning_rate": 5e-05,
      "loss": 3.1462,
      "step": 3083
    },
    {
      "epoch": 0.3829628709797591,
      "grad_norm": 0.2575666308403015,
      "learning_rate": 5e-05,
      "loss": 1.9446,
      "step": 3084
    },
    {
      "epoch": 0.3830870483049795,
      "grad_norm": 0.2706921696662903,
      "learning_rate": 5e-05,
      "loss": 2.0286,
      "step": 3085
    },
    {
      "epoch": 0.38321122563019994,
      "grad_norm": 0.23469194769859314,
      "learning_rate": 5e-05,
      "loss": 1.7326,
      "step": 3086
    },
    {
      "epoch": 0.38333540295542035,
      "grad_norm": 0.25182586908340454,
      "learning_rate": 5e-05,
      "loss": 1.906,
      "step": 3087
    },
    {
      "epoch": 0.38345958028064075,
      "grad_norm": 0.23961196839809418,
      "learning_rate": 5e-05,
      "loss": 1.7912,
      "step": 3088
    },
    {
      "epoch": 0.38358375760586116,
      "grad_norm": 0.344236820936203,
      "learning_rate": 5e-05,
      "loss": 2.5077,
      "step": 3089
    },
    {
      "epoch": 0.3837079349310816,
      "grad_norm": 0.253130704164505,
      "learning_rate": 5e-05,
      "loss": 1.7863,
      "step": 3090
    },
    {
      "epoch": 0.383832112256302,
      "grad_norm": 0.22801761329174042,
      "learning_rate": 5e-05,
      "loss": 1.8451,
      "step": 3091
    },
    {
      "epoch": 0.3839562895815224,
      "grad_norm": 0.2922053039073944,
      "learning_rate": 5e-05,
      "loss": 1.9032,
      "step": 3092
    },
    {
      "epoch": 0.3840804669067428,
      "grad_norm": 0.23056386411190033,
      "learning_rate": 5e-05,
      "loss": 1.6836,
      "step": 3093
    },
    {
      "epoch": 0.38420464423196327,
      "grad_norm": 0.27705180644989014,
      "learning_rate": 5e-05,
      "loss": 2.3663,
      "step": 3094
    },
    {
      "epoch": 0.3843288215571837,
      "grad_norm": 0.26883646845817566,
      "learning_rate": 5e-05,
      "loss": 2.502,
      "step": 3095
    },
    {
      "epoch": 0.3844529988824041,
      "grad_norm": 0.2381926029920578,
      "learning_rate": 5e-05,
      "loss": 1.6875,
      "step": 3096
    },
    {
      "epoch": 0.3845771762076245,
      "grad_norm": 0.3499280512332916,
      "learning_rate": 5e-05,
      "loss": 3.1822,
      "step": 3097
    },
    {
      "epoch": 0.3847013535328449,
      "grad_norm": 0.26643460988998413,
      "learning_rate": 5e-05,
      "loss": 2.0534,
      "step": 3098
    },
    {
      "epoch": 0.3848255308580653,
      "grad_norm": 0.24763643741607666,
      "learning_rate": 5e-05,
      "loss": 1.7935,
      "step": 3099
    },
    {
      "epoch": 0.3849497081832857,
      "grad_norm": 0.23745521903038025,
      "learning_rate": 5e-05,
      "loss": 1.7142,
      "step": 3100
    },
    {
      "epoch": 0.38507388550850613,
      "grad_norm": 0.25083643198013306,
      "learning_rate": 5e-05,
      "loss": 1.9099,
      "step": 3101
    },
    {
      "epoch": 0.38519806283372654,
      "grad_norm": 0.31027424335479736,
      "learning_rate": 5e-05,
      "loss": 2.4803,
      "step": 3102
    },
    {
      "epoch": 0.38532224015894695,
      "grad_norm": 0.21859607100486755,
      "learning_rate": 5e-05,
      "loss": 1.6418,
      "step": 3103
    },
    {
      "epoch": 0.3854464174841674,
      "grad_norm": 0.281548410654068,
      "learning_rate": 5e-05,
      "loss": 2.3032,
      "step": 3104
    },
    {
      "epoch": 0.3855705948093878,
      "grad_norm": 0.26583942770957947,
      "learning_rate": 5e-05,
      "loss": 2.0453,
      "step": 3105
    },
    {
      "epoch": 0.38569477213460823,
      "grad_norm": 0.272785484790802,
      "learning_rate": 5e-05,
      "loss": 2.1647,
      "step": 3106
    },
    {
      "epoch": 0.38581894945982864,
      "grad_norm": 0.3125622272491455,
      "learning_rate": 5e-05,
      "loss": 2.4732,
      "step": 3107
    },
    {
      "epoch": 0.38594312678504905,
      "grad_norm": 0.25268444418907166,
      "learning_rate": 5e-05,
      "loss": 2.3328,
      "step": 3108
    },
    {
      "epoch": 0.38606730411026946,
      "grad_norm": 0.2394634634256363,
      "learning_rate": 5e-05,
      "loss": 1.8094,
      "step": 3109
    },
    {
      "epoch": 0.38619148143548987,
      "grad_norm": 0.247454434633255,
      "learning_rate": 5e-05,
      "loss": 1.8495,
      "step": 3110
    },
    {
      "epoch": 0.3863156587607103,
      "grad_norm": 0.2566412389278412,
      "learning_rate": 5e-05,
      "loss": 1.8408,
      "step": 3111
    },
    {
      "epoch": 0.3864398360859307,
      "grad_norm": 0.2542460262775421,
      "learning_rate": 5e-05,
      "loss": 1.9761,
      "step": 3112
    },
    {
      "epoch": 0.3865640134111511,
      "grad_norm": 0.24918216466903687,
      "learning_rate": 5e-05,
      "loss": 1.9928,
      "step": 3113
    },
    {
      "epoch": 0.38668819073637156,
      "grad_norm": 0.251039057970047,
      "learning_rate": 5e-05,
      "loss": 1.8508,
      "step": 3114
    },
    {
      "epoch": 0.38681236806159197,
      "grad_norm": 0.23671133816242218,
      "learning_rate": 5e-05,
      "loss": 1.6716,
      "step": 3115
    },
    {
      "epoch": 0.3869365453868124,
      "grad_norm": 0.2513390779495239,
      "learning_rate": 5e-05,
      "loss": 1.8331,
      "step": 3116
    },
    {
      "epoch": 0.3870607227120328,
      "grad_norm": 0.26725152134895325,
      "learning_rate": 5e-05,
      "loss": 2.3166,
      "step": 3117
    },
    {
      "epoch": 0.3871849000372532,
      "grad_norm": 0.34937217831611633,
      "learning_rate": 5e-05,
      "loss": 3.1555,
      "step": 3118
    },
    {
      "epoch": 0.3873090773624736,
      "grad_norm": 0.2650000751018524,
      "learning_rate": 5e-05,
      "loss": 2.6926,
      "step": 3119
    },
    {
      "epoch": 0.387433254687694,
      "grad_norm": 0.3080534040927887,
      "learning_rate": 5e-05,
      "loss": 2.4796,
      "step": 3120
    },
    {
      "epoch": 0.3875574320129144,
      "grad_norm": 0.2609560489654541,
      "learning_rate": 5e-05,
      "loss": 1.8447,
      "step": 3121
    },
    {
      "epoch": 0.38768160933813484,
      "grad_norm": 0.30605852603912354,
      "learning_rate": 5e-05,
      "loss": 2.2455,
      "step": 3122
    },
    {
      "epoch": 0.38780578666335525,
      "grad_norm": 0.24625812470912933,
      "learning_rate": 5e-05,
      "loss": 1.9883,
      "step": 3123
    },
    {
      "epoch": 0.3879299639885757,
      "grad_norm": 0.3390367925167084,
      "learning_rate": 5e-05,
      "loss": 2.4521,
      "step": 3124
    },
    {
      "epoch": 0.3880541413137961,
      "grad_norm": 0.27835553884506226,
      "learning_rate": 5e-05,
      "loss": 2.2179,
      "step": 3125
    },
    {
      "epoch": 0.38817831863901653,
      "grad_norm": 0.2376982569694519,
      "learning_rate": 5e-05,
      "loss": 1.7662,
      "step": 3126
    },
    {
      "epoch": 0.38830249596423694,
      "grad_norm": 0.3349287509918213,
      "learning_rate": 5e-05,
      "loss": 2.6532,
      "step": 3127
    },
    {
      "epoch": 0.38842667328945735,
      "grad_norm": 0.2711982727050781,
      "learning_rate": 5e-05,
      "loss": 1.9078,
      "step": 3128
    },
    {
      "epoch": 0.38855085061467776,
      "grad_norm": 0.23891501128673553,
      "learning_rate": 5e-05,
      "loss": 2.0745,
      "step": 3129
    },
    {
      "epoch": 0.38867502793989817,
      "grad_norm": 0.24813856184482574,
      "learning_rate": 5e-05,
      "loss": 2.1678,
      "step": 3130
    },
    {
      "epoch": 0.3887992052651186,
      "grad_norm": 0.23392683267593384,
      "learning_rate": 5e-05,
      "loss": 1.7592,
      "step": 3131
    },
    {
      "epoch": 0.388923382590339,
      "grad_norm": 0.2949017882347107,
      "learning_rate": 5e-05,
      "loss": 2.6806,
      "step": 3132
    },
    {
      "epoch": 0.3890475599155594,
      "grad_norm": 0.25584590435028076,
      "learning_rate": 5e-05,
      "loss": 1.7985,
      "step": 3133
    },
    {
      "epoch": 0.38917173724077986,
      "grad_norm": 0.2581401467323303,
      "learning_rate": 5e-05,
      "loss": 1.921,
      "step": 3134
    },
    {
      "epoch": 0.38929591456600027,
      "grad_norm": 0.23445293307304382,
      "learning_rate": 5e-05,
      "loss": 1.7685,
      "step": 3135
    },
    {
      "epoch": 0.3894200918912207,
      "grad_norm": 0.26438209414482117,
      "learning_rate": 5e-05,
      "loss": 2.1228,
      "step": 3136
    },
    {
      "epoch": 0.3895442692164411,
      "grad_norm": 0.28357917070388794,
      "learning_rate": 5e-05,
      "loss": 2.276,
      "step": 3137
    },
    {
      "epoch": 0.3896684465416615,
      "grad_norm": 0.24636438488960266,
      "learning_rate": 5e-05,
      "loss": 1.7983,
      "step": 3138
    },
    {
      "epoch": 0.3897926238668819,
      "grad_norm": 0.2388295829296112,
      "learning_rate": 5e-05,
      "loss": 1.8797,
      "step": 3139
    },
    {
      "epoch": 0.3899168011921023,
      "grad_norm": 0.26258060336112976,
      "learning_rate": 5e-05,
      "loss": 1.6985,
      "step": 3140
    },
    {
      "epoch": 0.3900409785173227,
      "grad_norm": 0.3425505757331848,
      "learning_rate": 5e-05,
      "loss": 2.526,
      "step": 3141
    },
    {
      "epoch": 0.39016515584254313,
      "grad_norm": 0.24155297875404358,
      "learning_rate": 5e-05,
      "loss": 1.9104,
      "step": 3142
    },
    {
      "epoch": 0.39028933316776354,
      "grad_norm": 0.2627064287662506,
      "learning_rate": 5e-05,
      "loss": 1.9048,
      "step": 3143
    },
    {
      "epoch": 0.390413510492984,
      "grad_norm": 0.24964413046836853,
      "learning_rate": 5e-05,
      "loss": 2.2252,
      "step": 3144
    },
    {
      "epoch": 0.3905376878182044,
      "grad_norm": 0.24718742072582245,
      "learning_rate": 5e-05,
      "loss": 1.7927,
      "step": 3145
    },
    {
      "epoch": 0.3906618651434248,
      "grad_norm": 0.25128018856048584,
      "learning_rate": 5e-05,
      "loss": 2.1623,
      "step": 3146
    },
    {
      "epoch": 0.39078604246864523,
      "grad_norm": 0.24500875174999237,
      "learning_rate": 5e-05,
      "loss": 1.8136,
      "step": 3147
    },
    {
      "epoch": 0.39091021979386564,
      "grad_norm": 0.23893284797668457,
      "learning_rate": 5e-05,
      "loss": 2.0048,
      "step": 3148
    },
    {
      "epoch": 0.39103439711908605,
      "grad_norm": 0.3076295852661133,
      "learning_rate": 5e-05,
      "loss": 2.1997,
      "step": 3149
    },
    {
      "epoch": 0.39115857444430646,
      "grad_norm": 0.2501981854438782,
      "learning_rate": 5e-05,
      "loss": 1.9411,
      "step": 3150
    },
    {
      "epoch": 0.39128275176952687,
      "grad_norm": 0.2917187511920929,
      "learning_rate": 5e-05,
      "loss": 1.9085,
      "step": 3151
    },
    {
      "epoch": 0.3914069290947473,
      "grad_norm": 0.23988878726959229,
      "learning_rate": 5e-05,
      "loss": 2.1462,
      "step": 3152
    },
    {
      "epoch": 0.3915311064199677,
      "grad_norm": 0.2696390748023987,
      "learning_rate": 5e-05,
      "loss": 1.999,
      "step": 3153
    },
    {
      "epoch": 0.39165528374518815,
      "grad_norm": 0.30964720249176025,
      "learning_rate": 5e-05,
      "loss": 2.5373,
      "step": 3154
    },
    {
      "epoch": 0.39177946107040856,
      "grad_norm": 0.24554970860481262,
      "learning_rate": 5e-05,
      "loss": 2.0891,
      "step": 3155
    },
    {
      "epoch": 0.391903638395629,
      "grad_norm": 0.3089919090270996,
      "learning_rate": 5e-05,
      "loss": 2.5649,
      "step": 3156
    },
    {
      "epoch": 0.3920278157208494,
      "grad_norm": 0.28048399090766907,
      "learning_rate": 5e-05,
      "loss": 2.3251,
      "step": 3157
    },
    {
      "epoch": 0.3921519930460698,
      "grad_norm": 0.27881699800491333,
      "learning_rate": 5e-05,
      "loss": 1.9704,
      "step": 3158
    },
    {
      "epoch": 0.3922761703712902,
      "grad_norm": 0.3241457939147949,
      "learning_rate": 5e-05,
      "loss": 2.6925,
      "step": 3159
    },
    {
      "epoch": 0.3924003476965106,
      "grad_norm": 0.28475019335746765,
      "learning_rate": 5e-05,
      "loss": 2.258,
      "step": 3160
    },
    {
      "epoch": 0.392524525021731,
      "grad_norm": 0.24232326447963715,
      "learning_rate": 5e-05,
      "loss": 1.7258,
      "step": 3161
    },
    {
      "epoch": 0.39264870234695143,
      "grad_norm": 0.32122868299484253,
      "learning_rate": 5e-05,
      "loss": 2.2273,
      "step": 3162
    },
    {
      "epoch": 0.39277287967217184,
      "grad_norm": 0.30831006169319153,
      "learning_rate": 5e-05,
      "loss": 2.4585,
      "step": 3163
    },
    {
      "epoch": 0.3928970569973923,
      "grad_norm": 0.2527689039707184,
      "learning_rate": 5e-05,
      "loss": 1.7256,
      "step": 3164
    },
    {
      "epoch": 0.3930212343226127,
      "grad_norm": 0.27650725841522217,
      "learning_rate": 5e-05,
      "loss": 2.028,
      "step": 3165
    },
    {
      "epoch": 0.3931454116478331,
      "grad_norm": 0.290206640958786,
      "learning_rate": 5e-05,
      "loss": 1.9673,
      "step": 3166
    },
    {
      "epoch": 0.39326958897305353,
      "grad_norm": 0.2424802929162979,
      "learning_rate": 5e-05,
      "loss": 2.0775,
      "step": 3167
    },
    {
      "epoch": 0.39339376629827394,
      "grad_norm": 0.35881492495536804,
      "learning_rate": 5e-05,
      "loss": 2.3298,
      "step": 3168
    },
    {
      "epoch": 0.39351794362349435,
      "grad_norm": 0.28162121772766113,
      "learning_rate": 5e-05,
      "loss": 2.1162,
      "step": 3169
    },
    {
      "epoch": 0.39364212094871476,
      "grad_norm": 0.3731600344181061,
      "learning_rate": 5e-05,
      "loss": 2.7778,
      "step": 3170
    },
    {
      "epoch": 0.39376629827393517,
      "grad_norm": 0.24918660521507263,
      "learning_rate": 5e-05,
      "loss": 2.3232,
      "step": 3171
    },
    {
      "epoch": 0.3938904755991556,
      "grad_norm": 0.3939272463321686,
      "learning_rate": 5e-05,
      "loss": 2.7767,
      "step": 3172
    },
    {
      "epoch": 0.394014652924376,
      "grad_norm": 0.2590550482273102,
      "learning_rate": 5e-05,
      "loss": 1.9365,
      "step": 3173
    },
    {
      "epoch": 0.39413883024959645,
      "grad_norm": 0.5520243644714355,
      "learning_rate": 5e-05,
      "loss": 3.5578,
      "step": 3174
    },
    {
      "epoch": 0.39426300757481686,
      "grad_norm": 0.2481030821800232,
      "learning_rate": 5e-05,
      "loss": 1.9333,
      "step": 3175
    },
    {
      "epoch": 0.39438718490003727,
      "grad_norm": 0.28480684757232666,
      "learning_rate": 5e-05,
      "loss": 2.1246,
      "step": 3176
    },
    {
      "epoch": 0.3945113622252577,
      "grad_norm": 0.3174760639667511,
      "learning_rate": 5e-05,
      "loss": 2.2703,
      "step": 3177
    },
    {
      "epoch": 0.3946355395504781,
      "grad_norm": 0.23890171945095062,
      "learning_rate": 5e-05,
      "loss": 1.8264,
      "step": 3178
    },
    {
      "epoch": 0.3947597168756985,
      "grad_norm": 0.2582869827747345,
      "learning_rate": 5e-05,
      "loss": 2.0858,
      "step": 3179
    },
    {
      "epoch": 0.3948838942009189,
      "grad_norm": 0.266282856464386,
      "learning_rate": 5e-05,
      "loss": 2.0402,
      "step": 3180
    },
    {
      "epoch": 0.3950080715261393,
      "grad_norm": 0.24979424476623535,
      "learning_rate": 5e-05,
      "loss": 2.0849,
      "step": 3181
    },
    {
      "epoch": 0.3951322488513597,
      "grad_norm": 0.254221111536026,
      "learning_rate": 5e-05,
      "loss": 1.9893,
      "step": 3182
    },
    {
      "epoch": 0.39525642617658013,
      "grad_norm": 0.23809747397899628,
      "learning_rate": 5e-05,
      "loss": 1.8721,
      "step": 3183
    },
    {
      "epoch": 0.3953806035018006,
      "grad_norm": 0.2598564326763153,
      "learning_rate": 5e-05,
      "loss": 1.9059,
      "step": 3184
    },
    {
      "epoch": 0.395504780827021,
      "grad_norm": 0.2539629638195038,
      "learning_rate": 5e-05,
      "loss": 2.2068,
      "step": 3185
    },
    {
      "epoch": 0.3956289581522414,
      "grad_norm": 0.2955545485019684,
      "learning_rate": 5e-05,
      "loss": 2.1472,
      "step": 3186
    },
    {
      "epoch": 0.3957531354774618,
      "grad_norm": 0.24721388518810272,
      "learning_rate": 5e-05,
      "loss": 1.7596,
      "step": 3187
    },
    {
      "epoch": 0.39587731280268224,
      "grad_norm": 0.2526703178882599,
      "learning_rate": 5e-05,
      "loss": 1.9629,
      "step": 3188
    },
    {
      "epoch": 0.39600149012790264,
      "grad_norm": 0.2255893051624298,
      "learning_rate": 5e-05,
      "loss": 1.6443,
      "step": 3189
    },
    {
      "epoch": 0.39612566745312305,
      "grad_norm": 0.23943160474300385,
      "learning_rate": 5e-05,
      "loss": 1.9351,
      "step": 3190
    },
    {
      "epoch": 0.39624984477834346,
      "grad_norm": 0.435127317905426,
      "learning_rate": 5e-05,
      "loss": 2.8826,
      "step": 3191
    },
    {
      "epoch": 0.39637402210356387,
      "grad_norm": 0.2501561641693115,
      "learning_rate": 5e-05,
      "loss": 1.5746,
      "step": 3192
    },
    {
      "epoch": 0.3964981994287843,
      "grad_norm": 0.28033673763275146,
      "learning_rate": 5e-05,
      "loss": 2.426,
      "step": 3193
    },
    {
      "epoch": 0.39662237675400475,
      "grad_norm": 0.2348051369190216,
      "learning_rate": 5e-05,
      "loss": 1.7486,
      "step": 3194
    },
    {
      "epoch": 0.39674655407922516,
      "grad_norm": 0.316873162984848,
      "learning_rate": 5e-05,
      "loss": 2.9575,
      "step": 3195
    },
    {
      "epoch": 0.39687073140444556,
      "grad_norm": 0.27446675300598145,
      "learning_rate": 5e-05,
      "loss": 1.9949,
      "step": 3196
    },
    {
      "epoch": 0.396994908729666,
      "grad_norm": 0.260734885931015,
      "learning_rate": 5e-05,
      "loss": 1.9581,
      "step": 3197
    },
    {
      "epoch": 0.3971190860548864,
      "grad_norm": 0.36495643854141235,
      "learning_rate": 5e-05,
      "loss": 2.9605,
      "step": 3198
    },
    {
      "epoch": 0.3972432633801068,
      "grad_norm": 0.24668940901756287,
      "learning_rate": 5e-05,
      "loss": 1.9434,
      "step": 3199
    },
    {
      "epoch": 0.3973674407053272,
      "grad_norm": 0.2473028302192688,
      "learning_rate": 5e-05,
      "loss": 1.8453,
      "step": 3200
    },
    {
      "epoch": 0.3974916180305476,
      "grad_norm": 0.2859460413455963,
      "learning_rate": 5e-05,
      "loss": 1.9514,
      "step": 3201
    },
    {
      "epoch": 0.397615795355768,
      "grad_norm": 0.26227250695228577,
      "learning_rate": 5e-05,
      "loss": 1.8888,
      "step": 3202
    },
    {
      "epoch": 0.39773997268098843,
      "grad_norm": 0.2822369337081909,
      "learning_rate": 5e-05,
      "loss": 1.9258,
      "step": 3203
    },
    {
      "epoch": 0.39786415000620884,
      "grad_norm": 0.2533319294452667,
      "learning_rate": 5e-05,
      "loss": 1.9191,
      "step": 3204
    },
    {
      "epoch": 0.3979883273314293,
      "grad_norm": 0.2517368495464325,
      "learning_rate": 5e-05,
      "loss": 1.8751,
      "step": 3205
    },
    {
      "epoch": 0.3981125046566497,
      "grad_norm": 0.25612884759902954,
      "learning_rate": 5e-05,
      "loss": 1.9213,
      "step": 3206
    },
    {
      "epoch": 0.3982366819818701,
      "grad_norm": 0.2861345708370209,
      "learning_rate": 5e-05,
      "loss": 2.5041,
      "step": 3207
    },
    {
      "epoch": 0.39836085930709053,
      "grad_norm": 0.28101029992103577,
      "learning_rate": 5e-05,
      "loss": 2.3078,
      "step": 3208
    },
    {
      "epoch": 0.39848503663231094,
      "grad_norm": 0.2397671341896057,
      "learning_rate": 5e-05,
      "loss": 1.4569,
      "step": 3209
    },
    {
      "epoch": 0.39860921395753135,
      "grad_norm": 0.24958276748657227,
      "learning_rate": 5e-05,
      "loss": 1.8315,
      "step": 3210
    },
    {
      "epoch": 0.39873339128275176,
      "grad_norm": 0.3403858244419098,
      "learning_rate": 5e-05,
      "loss": 2.5607,
      "step": 3211
    },
    {
      "epoch": 0.39885756860797217,
      "grad_norm": 0.2546115517616272,
      "learning_rate": 5e-05,
      "loss": 1.9461,
      "step": 3212
    },
    {
      "epoch": 0.3989817459331926,
      "grad_norm": 0.2427891343832016,
      "learning_rate": 5e-05,
      "loss": 1.8502,
      "step": 3213
    },
    {
      "epoch": 0.399105923258413,
      "grad_norm": 0.41200706362724304,
      "learning_rate": 5e-05,
      "loss": 3.0953,
      "step": 3214
    },
    {
      "epoch": 0.39923010058363345,
      "grad_norm": 0.28418055176734924,
      "learning_rate": 5e-05,
      "loss": 2.0967,
      "step": 3215
    },
    {
      "epoch": 0.39935427790885386,
      "grad_norm": 0.343633234500885,
      "learning_rate": 5e-05,
      "loss": 3.0882,
      "step": 3216
    },
    {
      "epoch": 0.39947845523407427,
      "grad_norm": 0.247809499502182,
      "learning_rate": 5e-05,
      "loss": 1.741,
      "step": 3217
    },
    {
      "epoch": 0.3996026325592947,
      "grad_norm": 0.27520865201950073,
      "learning_rate": 5e-05,
      "loss": 1.9052,
      "step": 3218
    },
    {
      "epoch": 0.3997268098845151,
      "grad_norm": 0.2212163209915161,
      "learning_rate": 5e-05,
      "loss": 1.4233,
      "step": 3219
    },
    {
      "epoch": 0.3998509872097355,
      "grad_norm": 0.2825237512588501,
      "learning_rate": 5e-05,
      "loss": 2.4915,
      "step": 3220
    },
    {
      "epoch": 0.3999751645349559,
      "grad_norm": 0.23847058415412903,
      "learning_rate": 5e-05,
      "loss": 1.675,
      "step": 3221
    },
    {
      "epoch": 0.4000993418601763,
      "grad_norm": 0.25368937849998474,
      "learning_rate": 5e-05,
      "loss": 2.0468,
      "step": 3222
    },
    {
      "epoch": 0.4002235191853967,
      "grad_norm": 0.2578575909137726,
      "learning_rate": 5e-05,
      "loss": 1.8379,
      "step": 3223
    },
    {
      "epoch": 0.40034769651061713,
      "grad_norm": 0.2366873025894165,
      "learning_rate": 5e-05,
      "loss": 1.7687,
      "step": 3224
    },
    {
      "epoch": 0.4004718738358376,
      "grad_norm": 0.37953028082847595,
      "learning_rate": 5e-05,
      "loss": 2.9504,
      "step": 3225
    },
    {
      "epoch": 0.400596051161058,
      "grad_norm": 0.23708204925060272,
      "learning_rate": 5e-05,
      "loss": 1.657,
      "step": 3226
    },
    {
      "epoch": 0.4007202284862784,
      "grad_norm": 0.24100476503372192,
      "learning_rate": 5e-05,
      "loss": 1.735,
      "step": 3227
    },
    {
      "epoch": 0.4008444058114988,
      "grad_norm": 0.24960608780384064,
      "learning_rate": 5e-05,
      "loss": 1.816,
      "step": 3228
    },
    {
      "epoch": 0.40096858313671924,
      "grad_norm": 0.28130728006362915,
      "learning_rate": 5e-05,
      "loss": 2.1257,
      "step": 3229
    },
    {
      "epoch": 0.40109276046193965,
      "grad_norm": 0.23559513688087463,
      "learning_rate": 5e-05,
      "loss": 1.8406,
      "step": 3230
    },
    {
      "epoch": 0.40121693778716006,
      "grad_norm": 0.24949392676353455,
      "learning_rate": 5e-05,
      "loss": 2.1763,
      "step": 3231
    },
    {
      "epoch": 0.40134111511238046,
      "grad_norm": 0.23313212394714355,
      "learning_rate": 5e-05,
      "loss": 1.8966,
      "step": 3232
    },
    {
      "epoch": 0.4014652924376009,
      "grad_norm": 0.26847589015960693,
      "learning_rate": 5e-05,
      "loss": 2.0881,
      "step": 3233
    },
    {
      "epoch": 0.4015894697628213,
      "grad_norm": 0.266902893781662,
      "learning_rate": 5e-05,
      "loss": 1.8349,
      "step": 3234
    },
    {
      "epoch": 0.40171364708804175,
      "grad_norm": 0.2542303502559662,
      "learning_rate": 5e-05,
      "loss": 2.0281,
      "step": 3235
    },
    {
      "epoch": 0.40183782441326216,
      "grad_norm": 0.2559458911418915,
      "learning_rate": 5e-05,
      "loss": 1.8881,
      "step": 3236
    },
    {
      "epoch": 0.40196200173848257,
      "grad_norm": 0.3651553690433502,
      "learning_rate": 5e-05,
      "loss": 2.8641,
      "step": 3237
    },
    {
      "epoch": 0.402086179063703,
      "grad_norm": 0.26255086064338684,
      "learning_rate": 5e-05,
      "loss": 2.2252,
      "step": 3238
    },
    {
      "epoch": 0.4022103563889234,
      "grad_norm": 0.22931768000125885,
      "learning_rate": 5e-05,
      "loss": 1.6029,
      "step": 3239
    },
    {
      "epoch": 0.4023345337141438,
      "grad_norm": 0.23497271537780762,
      "learning_rate": 5e-05,
      "loss": 1.7451,
      "step": 3240
    },
    {
      "epoch": 0.4024587110393642,
      "grad_norm": 0.24078533053398132,
      "learning_rate": 5e-05,
      "loss": 1.7578,
      "step": 3241
    },
    {
      "epoch": 0.4025828883645846,
      "grad_norm": 0.2341689169406891,
      "learning_rate": 5e-05,
      "loss": 1.8351,
      "step": 3242
    },
    {
      "epoch": 0.402707065689805,
      "grad_norm": 0.23458215594291687,
      "learning_rate": 5e-05,
      "loss": 1.8435,
      "step": 3243
    },
    {
      "epoch": 0.40283124301502543,
      "grad_norm": 0.2809026539325714,
      "learning_rate": 5e-05,
      "loss": 2.086,
      "step": 3244
    },
    {
      "epoch": 0.4029554203402459,
      "grad_norm": 0.26391589641571045,
      "learning_rate": 5e-05,
      "loss": 2.0628,
      "step": 3245
    },
    {
      "epoch": 0.4030795976654663,
      "grad_norm": 0.25057706236839294,
      "learning_rate": 5e-05,
      "loss": 1.8822,
      "step": 3246
    },
    {
      "epoch": 0.4032037749906867,
      "grad_norm": 0.33236244320869446,
      "learning_rate": 5e-05,
      "loss": 2.2004,
      "step": 3247
    },
    {
      "epoch": 0.4033279523159071,
      "grad_norm": 0.22801382839679718,
      "learning_rate": 5e-05,
      "loss": 1.673,
      "step": 3248
    },
    {
      "epoch": 0.40345212964112753,
      "grad_norm": 0.2859856188297272,
      "learning_rate": 5e-05,
      "loss": 2.0837,
      "step": 3249
    },
    {
      "epoch": 0.40357630696634794,
      "grad_norm": 0.2515939176082611,
      "learning_rate": 5e-05,
      "loss": 1.8873,
      "step": 3250
    },
    {
      "epoch": 0.40370048429156835,
      "grad_norm": 0.2529393136501312,
      "learning_rate": 5e-05,
      "loss": 1.9659,
      "step": 3251
    },
    {
      "epoch": 0.40382466161678876,
      "grad_norm": 0.2500138282775879,
      "learning_rate": 5e-05,
      "loss": 1.8937,
      "step": 3252
    },
    {
      "epoch": 0.40394883894200917,
      "grad_norm": 0.2902529835700989,
      "learning_rate": 5e-05,
      "loss": 1.8985,
      "step": 3253
    },
    {
      "epoch": 0.4040730162672296,
      "grad_norm": 0.3275989890098572,
      "learning_rate": 5e-05,
      "loss": 1.9777,
      "step": 3254
    },
    {
      "epoch": 0.40419719359245004,
      "grad_norm": 0.24015851318836212,
      "learning_rate": 5e-05,
      "loss": 1.8576,
      "step": 3255
    },
    {
      "epoch": 0.40432137091767045,
      "grad_norm": 0.31689026951789856,
      "learning_rate": 5e-05,
      "loss": 2.3551,
      "step": 3256
    },
    {
      "epoch": 0.40444554824289086,
      "grad_norm": 0.2728320360183716,
      "learning_rate": 5e-05,
      "loss": 1.9237,
      "step": 3257
    },
    {
      "epoch": 0.40456972556811127,
      "grad_norm": 0.328977108001709,
      "learning_rate": 5e-05,
      "loss": 2.9301,
      "step": 3258
    },
    {
      "epoch": 0.4046939028933317,
      "grad_norm": 0.2534151077270508,
      "learning_rate": 5e-05,
      "loss": 1.9114,
      "step": 3259
    },
    {
      "epoch": 0.4048180802185521,
      "grad_norm": 0.230416938662529,
      "learning_rate": 5e-05,
      "loss": 1.7749,
      "step": 3260
    },
    {
      "epoch": 0.4049422575437725,
      "grad_norm": 0.27188584208488464,
      "learning_rate": 5e-05,
      "loss": 2.0906,
      "step": 3261
    },
    {
      "epoch": 0.4050664348689929,
      "grad_norm": 0.31253334879875183,
      "learning_rate": 5e-05,
      "loss": 2.76,
      "step": 3262
    },
    {
      "epoch": 0.4051906121942133,
      "grad_norm": 0.27397364377975464,
      "learning_rate": 5e-05,
      "loss": 2.1069,
      "step": 3263
    },
    {
      "epoch": 0.4053147895194337,
      "grad_norm": 0.2573283016681671,
      "learning_rate": 5e-05,
      "loss": 1.6221,
      "step": 3264
    },
    {
      "epoch": 0.4054389668446542,
      "grad_norm": 0.2459263950586319,
      "learning_rate": 5e-05,
      "loss": 1.6137,
      "step": 3265
    },
    {
      "epoch": 0.4055631441698746,
      "grad_norm": 0.410357266664505,
      "learning_rate": 5e-05,
      "loss": 2.8048,
      "step": 3266
    },
    {
      "epoch": 0.405687321495095,
      "grad_norm": 0.2518337368965149,
      "learning_rate": 5e-05,
      "loss": 1.9025,
      "step": 3267
    },
    {
      "epoch": 0.4058114988203154,
      "grad_norm": 0.25045186281204224,
      "learning_rate": 5e-05,
      "loss": 1.8734,
      "step": 3268
    },
    {
      "epoch": 0.40593567614553583,
      "grad_norm": 0.3234350383281708,
      "learning_rate": 5e-05,
      "loss": 2.3716,
      "step": 3269
    },
    {
      "epoch": 0.40605985347075624,
      "grad_norm": 0.25751304626464844,
      "learning_rate": 5e-05,
      "loss": 1.8244,
      "step": 3270
    },
    {
      "epoch": 0.40618403079597665,
      "grad_norm": 0.23443768918514252,
      "learning_rate": 5e-05,
      "loss": 1.692,
      "step": 3271
    },
    {
      "epoch": 0.40630820812119706,
      "grad_norm": 0.27722761034965515,
      "learning_rate": 5e-05,
      "loss": 1.849,
      "step": 3272
    },
    {
      "epoch": 0.40643238544641747,
      "grad_norm": 0.25484806299209595,
      "learning_rate": 5e-05,
      "loss": 2.1674,
      "step": 3273
    },
    {
      "epoch": 0.4065565627716379,
      "grad_norm": 0.25720641016960144,
      "learning_rate": 5e-05,
      "loss": 2.1471,
      "step": 3274
    },
    {
      "epoch": 0.40668074009685834,
      "grad_norm": 0.2818875014781952,
      "learning_rate": 5e-05,
      "loss": 2.2734,
      "step": 3275
    },
    {
      "epoch": 0.40680491742207875,
      "grad_norm": 0.25783732533454895,
      "learning_rate": 5e-05,
      "loss": 2.1214,
      "step": 3276
    },
    {
      "epoch": 0.40692909474729916,
      "grad_norm": 0.2418941706418991,
      "learning_rate": 5e-05,
      "loss": 1.9046,
      "step": 3277
    },
    {
      "epoch": 0.40705327207251957,
      "grad_norm": 0.42483940720558167,
      "learning_rate": 5e-05,
      "loss": 3.0115,
      "step": 3278
    },
    {
      "epoch": 0.40717744939774,
      "grad_norm": 0.2835560142993927,
      "learning_rate": 5e-05,
      "loss": 2.2405,
      "step": 3279
    },
    {
      "epoch": 0.4073016267229604,
      "grad_norm": 0.2531037926673889,
      "learning_rate": 5e-05,
      "loss": 1.7515,
      "step": 3280
    },
    {
      "epoch": 0.4074258040481808,
      "grad_norm": 0.6472195386886597,
      "learning_rate": 5e-05,
      "loss": 3.4052,
      "step": 3281
    },
    {
      "epoch": 0.4075499813734012,
      "grad_norm": 0.31920236349105835,
      "learning_rate": 5e-05,
      "loss": 2.6918,
      "step": 3282
    },
    {
      "epoch": 0.4076741586986216,
      "grad_norm": 0.26303863525390625,
      "learning_rate": 5e-05,
      "loss": 2.403,
      "step": 3283
    },
    {
      "epoch": 0.407798336023842,
      "grad_norm": 0.23327696323394775,
      "learning_rate": 5e-05,
      "loss": 1.6611,
      "step": 3284
    },
    {
      "epoch": 0.4079225133490625,
      "grad_norm": 0.28720566630363464,
      "learning_rate": 5e-05,
      "loss": 2.842,
      "step": 3285
    },
    {
      "epoch": 0.4080466906742829,
      "grad_norm": 0.24408192932605743,
      "learning_rate": 5e-05,
      "loss": 1.6506,
      "step": 3286
    },
    {
      "epoch": 0.4081708679995033,
      "grad_norm": 0.3013565242290497,
      "learning_rate": 5e-05,
      "loss": 2.0958,
      "step": 3287
    },
    {
      "epoch": 0.4082950453247237,
      "grad_norm": 0.2916112542152405,
      "learning_rate": 5e-05,
      "loss": 2.3352,
      "step": 3288
    },
    {
      "epoch": 0.4084192226499441,
      "grad_norm": 0.3762753903865814,
      "learning_rate": 5e-05,
      "loss": 2.6158,
      "step": 3289
    },
    {
      "epoch": 0.40854339997516453,
      "grad_norm": 0.28964895009994507,
      "learning_rate": 5e-05,
      "loss": 2.1702,
      "step": 3290
    },
    {
      "epoch": 0.40866757730038494,
      "grad_norm": 0.26771649718284607,
      "learning_rate": 5e-05,
      "loss": 1.7568,
      "step": 3291
    },
    {
      "epoch": 0.40879175462560535,
      "grad_norm": 0.2647267282009125,
      "learning_rate": 5e-05,
      "loss": 1.7622,
      "step": 3292
    },
    {
      "epoch": 0.40891593195082576,
      "grad_norm": 0.27162161469459534,
      "learning_rate": 5e-05,
      "loss": 1.8978,
      "step": 3293
    },
    {
      "epoch": 0.40904010927604617,
      "grad_norm": 0.33049115538597107,
      "learning_rate": 5e-05,
      "loss": 2.6634,
      "step": 3294
    },
    {
      "epoch": 0.40916428660126664,
      "grad_norm": 0.21929199993610382,
      "learning_rate": 5e-05,
      "loss": 1.6448,
      "step": 3295
    },
    {
      "epoch": 0.40928846392648704,
      "grad_norm": 0.25452035665512085,
      "learning_rate": 5e-05,
      "loss": 1.8088,
      "step": 3296
    },
    {
      "epoch": 0.40941264125170745,
      "grad_norm": 0.24368155002593994,
      "learning_rate": 5e-05,
      "loss": 1.8273,
      "step": 3297
    },
    {
      "epoch": 0.40953681857692786,
      "grad_norm": 0.2961564064025879,
      "learning_rate": 5e-05,
      "loss": 2.4794,
      "step": 3298
    },
    {
      "epoch": 0.4096609959021483,
      "grad_norm": 0.24463674426078796,
      "learning_rate": 5e-05,
      "loss": 1.9223,
      "step": 3299
    },
    {
      "epoch": 0.4097851732273687,
      "grad_norm": 0.2337009757757187,
      "learning_rate": 5e-05,
      "loss": 1.8809,
      "step": 3300
    },
    {
      "epoch": 0.4099093505525891,
      "grad_norm": 0.24919812381267548,
      "learning_rate": 5e-05,
      "loss": 2.1978,
      "step": 3301
    },
    {
      "epoch": 0.4100335278778095,
      "grad_norm": 0.24201802909374237,
      "learning_rate": 5e-05,
      "loss": 1.7145,
      "step": 3302
    },
    {
      "epoch": 0.4101577052030299,
      "grad_norm": 0.32483869791030884,
      "learning_rate": 5e-05,
      "loss": 2.4252,
      "step": 3303
    },
    {
      "epoch": 0.4102818825282503,
      "grad_norm": 0.4176599979400635,
      "learning_rate": 5e-05,
      "loss": 2.7853,
      "step": 3304
    },
    {
      "epoch": 0.4104060598534708,
      "grad_norm": 0.24182365834712982,
      "learning_rate": 5e-05,
      "loss": 1.7093,
      "step": 3305
    },
    {
      "epoch": 0.4105302371786912,
      "grad_norm": 0.24902278184890747,
      "learning_rate": 5e-05,
      "loss": 1.7321,
      "step": 3306
    },
    {
      "epoch": 0.4106544145039116,
      "grad_norm": 0.2560373842716217,
      "learning_rate": 5e-05,
      "loss": 1.8098,
      "step": 3307
    },
    {
      "epoch": 0.410778591829132,
      "grad_norm": 0.23286306858062744,
      "learning_rate": 5e-05,
      "loss": 1.6582,
      "step": 3308
    },
    {
      "epoch": 0.4109027691543524,
      "grad_norm": 0.2629183530807495,
      "learning_rate": 5e-05,
      "loss": 2.2551,
      "step": 3309
    },
    {
      "epoch": 0.41102694647957283,
      "grad_norm": 0.29891636967658997,
      "learning_rate": 5e-05,
      "loss": 2.641,
      "step": 3310
    },
    {
      "epoch": 0.41115112380479324,
      "grad_norm": 0.3004927933216095,
      "learning_rate": 5e-05,
      "loss": 2.2943,
      "step": 3311
    },
    {
      "epoch": 0.41127530113001365,
      "grad_norm": 0.2863631844520569,
      "learning_rate": 5e-05,
      "loss": 2.0059,
      "step": 3312
    },
    {
      "epoch": 0.41139947845523406,
      "grad_norm": 0.2744470238685608,
      "learning_rate": 5e-05,
      "loss": 2.5977,
      "step": 3313
    },
    {
      "epoch": 0.41152365578045447,
      "grad_norm": 0.23051901161670685,
      "learning_rate": 5e-05,
      "loss": 1.6559,
      "step": 3314
    },
    {
      "epoch": 0.4116478331056749,
      "grad_norm": 0.2972249686717987,
      "learning_rate": 5e-05,
      "loss": 2.3126,
      "step": 3315
    },
    {
      "epoch": 0.41177201043089534,
      "grad_norm": 0.31656894087791443,
      "learning_rate": 5e-05,
      "loss": 2.7207,
      "step": 3316
    },
    {
      "epoch": 0.41189618775611575,
      "grad_norm": 0.23948752880096436,
      "learning_rate": 5e-05,
      "loss": 1.7337,
      "step": 3317
    },
    {
      "epoch": 0.41202036508133616,
      "grad_norm": 0.22887474298477173,
      "learning_rate": 5e-05,
      "loss": 1.8173,
      "step": 3318
    },
    {
      "epoch": 0.41214454240655657,
      "grad_norm": 0.2630671560764313,
      "learning_rate": 5e-05,
      "loss": 1.7794,
      "step": 3319
    },
    {
      "epoch": 0.412268719731777,
      "grad_norm": 0.22800284624099731,
      "learning_rate": 5e-05,
      "loss": 1.4876,
      "step": 3320
    },
    {
      "epoch": 0.4123928970569974,
      "grad_norm": 0.2434392273426056,
      "learning_rate": 5e-05,
      "loss": 1.8354,
      "step": 3321
    },
    {
      "epoch": 0.4125170743822178,
      "grad_norm": 0.2796170115470886,
      "learning_rate": 5e-05,
      "loss": 2.0999,
      "step": 3322
    },
    {
      "epoch": 0.4126412517074382,
      "grad_norm": 0.24913708865642548,
      "learning_rate": 5e-05,
      "loss": 1.8913,
      "step": 3323
    },
    {
      "epoch": 0.4127654290326586,
      "grad_norm": 0.23611408472061157,
      "learning_rate": 5e-05,
      "loss": 1.6581,
      "step": 3324
    },
    {
      "epoch": 0.412889606357879,
      "grad_norm": 0.25136780738830566,
      "learning_rate": 5e-05,
      "loss": 2.2604,
      "step": 3325
    },
    {
      "epoch": 0.4130137836830995,
      "grad_norm": 0.40644875168800354,
      "learning_rate": 5e-05,
      "loss": 2.4211,
      "step": 3326
    },
    {
      "epoch": 0.4131379610083199,
      "grad_norm": 0.2564259171485901,
      "learning_rate": 5e-05,
      "loss": 1.5958,
      "step": 3327
    },
    {
      "epoch": 0.4132621383335403,
      "grad_norm": 0.292250394821167,
      "learning_rate": 5e-05,
      "loss": 1.8867,
      "step": 3328
    },
    {
      "epoch": 0.4133863156587607,
      "grad_norm": 0.27501770853996277,
      "learning_rate": 5e-05,
      "loss": 2.0115,
      "step": 3329
    },
    {
      "epoch": 0.4135104929839811,
      "grad_norm": 0.26127877831459045,
      "learning_rate": 5e-05,
      "loss": 1.7981,
      "step": 3330
    },
    {
      "epoch": 0.41363467030920154,
      "grad_norm": 0.213522806763649,
      "learning_rate": 5e-05,
      "loss": 1.416,
      "step": 3331
    },
    {
      "epoch": 0.41375884763442194,
      "grad_norm": 0.2548137605190277,
      "learning_rate": 5e-05,
      "loss": 1.9685,
      "step": 3332
    },
    {
      "epoch": 0.41388302495964235,
      "grad_norm": 0.25160858035087585,
      "learning_rate": 5e-05,
      "loss": 2.066,
      "step": 3333
    },
    {
      "epoch": 0.41400720228486276,
      "grad_norm": 0.2430408000946045,
      "learning_rate": 5e-05,
      "loss": 1.9191,
      "step": 3334
    },
    {
      "epoch": 0.4141313796100832,
      "grad_norm": 0.2609919011592865,
      "learning_rate": 5e-05,
      "loss": 1.7538,
      "step": 3335
    },
    {
      "epoch": 0.41425555693530364,
      "grad_norm": 0.2683079242706299,
      "learning_rate": 5e-05,
      "loss": 1.7518,
      "step": 3336
    },
    {
      "epoch": 0.41437973426052405,
      "grad_norm": 0.28265538811683655,
      "learning_rate": 5e-05,
      "loss": 2.15,
      "step": 3337
    },
    {
      "epoch": 0.41450391158574446,
      "grad_norm": 0.24519746005535126,
      "learning_rate": 5e-05,
      "loss": 1.6722,
      "step": 3338
    },
    {
      "epoch": 0.41462808891096486,
      "grad_norm": 0.2990780174732208,
      "learning_rate": 5e-05,
      "loss": 2.0942,
      "step": 3339
    },
    {
      "epoch": 0.4147522662361853,
      "grad_norm": 0.3654913902282715,
      "learning_rate": 5e-05,
      "loss": 2.9664,
      "step": 3340
    },
    {
      "epoch": 0.4148764435614057,
      "grad_norm": 0.24000787734985352,
      "learning_rate": 5e-05,
      "loss": 1.9836,
      "step": 3341
    },
    {
      "epoch": 0.4150006208866261,
      "grad_norm": 0.24698716402053833,
      "learning_rate": 5e-05,
      "loss": 1.674,
      "step": 3342
    },
    {
      "epoch": 0.4151247982118465,
      "grad_norm": 0.2373656928539276,
      "learning_rate": 5e-05,
      "loss": 1.728,
      "step": 3343
    },
    {
      "epoch": 0.4152489755370669,
      "grad_norm": 0.26102742552757263,
      "learning_rate": 5e-05,
      "loss": 2.0658,
      "step": 3344
    },
    {
      "epoch": 0.4153731528622873,
      "grad_norm": 0.2378949373960495,
      "learning_rate": 5e-05,
      "loss": 1.8418,
      "step": 3345
    },
    {
      "epoch": 0.4154973301875078,
      "grad_norm": 0.2490576207637787,
      "learning_rate": 5e-05,
      "loss": 1.821,
      "step": 3346
    },
    {
      "epoch": 0.4156215075127282,
      "grad_norm": 0.25114601850509644,
      "learning_rate": 5e-05,
      "loss": 2.0123,
      "step": 3347
    },
    {
      "epoch": 0.4157456848379486,
      "grad_norm": 0.3963528573513031,
      "learning_rate": 5e-05,
      "loss": 2.5569,
      "step": 3348
    },
    {
      "epoch": 0.415869862163169,
      "grad_norm": 0.2629963457584381,
      "learning_rate": 5e-05,
      "loss": 1.6892,
      "step": 3349
    },
    {
      "epoch": 0.4159940394883894,
      "grad_norm": 0.23557481169700623,
      "learning_rate": 5e-05,
      "loss": 1.8269,
      "step": 3350
    },
    {
      "epoch": 0.41611821681360983,
      "grad_norm": 0.2852698862552643,
      "learning_rate": 5e-05,
      "loss": 1.8967,
      "step": 3351
    },
    {
      "epoch": 0.41624239413883024,
      "grad_norm": 0.3937217891216278,
      "learning_rate": 5e-05,
      "loss": 2.485,
      "step": 3352
    },
    {
      "epoch": 0.41636657146405065,
      "grad_norm": 0.25239717960357666,
      "learning_rate": 5e-05,
      "loss": 1.6328,
      "step": 3353
    },
    {
      "epoch": 0.41649074878927106,
      "grad_norm": 0.30600252747535706,
      "learning_rate": 5e-05,
      "loss": 1.7857,
      "step": 3354
    },
    {
      "epoch": 0.41661492611449147,
      "grad_norm": 0.2959606945514679,
      "learning_rate": 5e-05,
      "loss": 1.8176,
      "step": 3355
    },
    {
      "epoch": 0.41673910343971193,
      "grad_norm": 0.3044343590736389,
      "learning_rate": 5e-05,
      "loss": 1.9752,
      "step": 3356
    },
    {
      "epoch": 0.41686328076493234,
      "grad_norm": 0.2534724771976471,
      "learning_rate": 5e-05,
      "loss": 2.3616,
      "step": 3357
    },
    {
      "epoch": 0.41698745809015275,
      "grad_norm": 0.26968103647232056,
      "learning_rate": 5e-05,
      "loss": 1.9957,
      "step": 3358
    },
    {
      "epoch": 0.41711163541537316,
      "grad_norm": 0.3110410273075104,
      "learning_rate": 5e-05,
      "loss": 2.2647,
      "step": 3359
    },
    {
      "epoch": 0.41723581274059357,
      "grad_norm": 0.47166141867637634,
      "learning_rate": 5e-05,
      "loss": 2.5188,
      "step": 3360
    },
    {
      "epoch": 0.417359990065814,
      "grad_norm": 0.331869512796402,
      "learning_rate": 5e-05,
      "loss": 2.0572,
      "step": 3361
    },
    {
      "epoch": 0.4174841673910344,
      "grad_norm": 0.31614527106285095,
      "learning_rate": 5e-05,
      "loss": 2.462,
      "step": 3362
    },
    {
      "epoch": 0.4176083447162548,
      "grad_norm": 0.24280445277690887,
      "learning_rate": 5e-05,
      "loss": 1.9101,
      "step": 3363
    },
    {
      "epoch": 0.4177325220414752,
      "grad_norm": 0.28824475407600403,
      "learning_rate": 5e-05,
      "loss": 2.279,
      "step": 3364
    },
    {
      "epoch": 0.4178566993666956,
      "grad_norm": 0.2633785307407379,
      "learning_rate": 5e-05,
      "loss": 1.8472,
      "step": 3365
    },
    {
      "epoch": 0.4179808766919161,
      "grad_norm": 0.2650469243526459,
      "learning_rate": 5e-05,
      "loss": 1.8278,
      "step": 3366
    },
    {
      "epoch": 0.4181050540171365,
      "grad_norm": 0.2833096385002136,
      "learning_rate": 5e-05,
      "loss": 1.8323,
      "step": 3367
    },
    {
      "epoch": 0.4182292313423569,
      "grad_norm": 0.23373261094093323,
      "learning_rate": 5e-05,
      "loss": 1.8023,
      "step": 3368
    },
    {
      "epoch": 0.4183534086675773,
      "grad_norm": 0.24790047109127045,
      "learning_rate": 5e-05,
      "loss": 1.9374,
      "step": 3369
    },
    {
      "epoch": 0.4184775859927977,
      "grad_norm": 0.4289436340332031,
      "learning_rate": 5e-05,
      "loss": 2.9487,
      "step": 3370
    },
    {
      "epoch": 0.4186017633180181,
      "grad_norm": 0.24313776195049286,
      "learning_rate": 5e-05,
      "loss": 1.7685,
      "step": 3371
    },
    {
      "epoch": 0.41872594064323854,
      "grad_norm": 0.24773679673671722,
      "learning_rate": 5e-05,
      "loss": 1.8596,
      "step": 3372
    },
    {
      "epoch": 0.41885011796845895,
      "grad_norm": 0.25414812564849854,
      "learning_rate": 5e-05,
      "loss": 2.0478,
      "step": 3373
    },
    {
      "epoch": 0.41897429529367936,
      "grad_norm": 0.2624247670173645,
      "learning_rate": 5e-05,
      "loss": 2.2904,
      "step": 3374
    },
    {
      "epoch": 0.41909847261889976,
      "grad_norm": 0.26548388600349426,
      "learning_rate": 5e-05,
      "loss": 2.1267,
      "step": 3375
    },
    {
      "epoch": 0.41922264994412023,
      "grad_norm": 0.2785142958164215,
      "learning_rate": 5e-05,
      "loss": 1.8295,
      "step": 3376
    },
    {
      "epoch": 0.41934682726934064,
      "grad_norm": 0.23659725487232208,
      "learning_rate": 5e-05,
      "loss": 1.7218,
      "step": 3377
    },
    {
      "epoch": 0.41947100459456105,
      "grad_norm": 0.26557525992393494,
      "learning_rate": 5e-05,
      "loss": 2.4336,
      "step": 3378
    },
    {
      "epoch": 0.41959518191978146,
      "grad_norm": 0.2445652037858963,
      "learning_rate": 5e-05,
      "loss": 1.7085,
      "step": 3379
    },
    {
      "epoch": 0.41971935924500187,
      "grad_norm": 0.3549094498157501,
      "learning_rate": 5e-05,
      "loss": 2.2662,
      "step": 3380
    },
    {
      "epoch": 0.4198435365702223,
      "grad_norm": 0.22882160544395447,
      "learning_rate": 5e-05,
      "loss": 1.7271,
      "step": 3381
    },
    {
      "epoch": 0.4199677138954427,
      "grad_norm": 0.27897635102272034,
      "learning_rate": 5e-05,
      "loss": 2.3793,
      "step": 3382
    },
    {
      "epoch": 0.4200918912206631,
      "grad_norm": 0.2471127063035965,
      "learning_rate": 5e-05,
      "loss": 2.0686,
      "step": 3383
    },
    {
      "epoch": 0.4202160685458835,
      "grad_norm": 0.2623070478439331,
      "learning_rate": 5e-05,
      "loss": 2.0878,
      "step": 3384
    },
    {
      "epoch": 0.4203402458711039,
      "grad_norm": 0.23333360254764557,
      "learning_rate": 5e-05,
      "loss": 1.9169,
      "step": 3385
    },
    {
      "epoch": 0.4204644231963244,
      "grad_norm": 0.3164125382900238,
      "learning_rate": 5e-05,
      "loss": 2.664,
      "step": 3386
    },
    {
      "epoch": 0.4205886005215448,
      "grad_norm": 0.24894979596138,
      "learning_rate": 5e-05,
      "loss": 2.116,
      "step": 3387
    },
    {
      "epoch": 0.4207127778467652,
      "grad_norm": 0.23133230209350586,
      "learning_rate": 5e-05,
      "loss": 2.0747,
      "step": 3388
    },
    {
      "epoch": 0.4208369551719856,
      "grad_norm": 0.44651320576667786,
      "learning_rate": 5e-05,
      "loss": 3.222,
      "step": 3389
    },
    {
      "epoch": 0.420961132497206,
      "grad_norm": 0.25321146845817566,
      "learning_rate": 5e-05,
      "loss": 1.806,
      "step": 3390
    },
    {
      "epoch": 0.4210853098224264,
      "grad_norm": 0.28276702761650085,
      "learning_rate": 5e-05,
      "loss": 1.8903,
      "step": 3391
    },
    {
      "epoch": 0.42120948714764683,
      "grad_norm": 0.33389943838119507,
      "learning_rate": 5e-05,
      "loss": 1.9715,
      "step": 3392
    },
    {
      "epoch": 0.42133366447286724,
      "grad_norm": 0.2813355624675751,
      "learning_rate": 5e-05,
      "loss": 1.9086,
      "step": 3393
    },
    {
      "epoch": 0.42145784179808765,
      "grad_norm": 0.4019930958747864,
      "learning_rate": 5e-05,
      "loss": 2.6213,
      "step": 3394
    },
    {
      "epoch": 0.42158201912330806,
      "grad_norm": 0.25617924332618713,
      "learning_rate": 5e-05,
      "loss": 1.9279,
      "step": 3395
    },
    {
      "epoch": 0.4217061964485285,
      "grad_norm": 0.2738133370876312,
      "learning_rate": 5e-05,
      "loss": 1.8295,
      "step": 3396
    },
    {
      "epoch": 0.42183037377374893,
      "grad_norm": 0.281930536031723,
      "learning_rate": 5e-05,
      "loss": 2.0109,
      "step": 3397
    },
    {
      "epoch": 0.42195455109896934,
      "grad_norm": 0.25403085350990295,
      "learning_rate": 5e-05,
      "loss": 1.6643,
      "step": 3398
    },
    {
      "epoch": 0.42207872842418975,
      "grad_norm": 0.25405240058898926,
      "learning_rate": 5e-05,
      "loss": 2.0965,
      "step": 3399
    },
    {
      "epoch": 0.42220290574941016,
      "grad_norm": 0.2487897425889969,
      "learning_rate": 5e-05,
      "loss": 2.0132,
      "step": 3400
    },
    {
      "epoch": 0.42232708307463057,
      "grad_norm": 0.2592264711856842,
      "learning_rate": 5e-05,
      "loss": 2.0487,
      "step": 3401
    },
    {
      "epoch": 0.422451260399851,
      "grad_norm": 0.2716180384159088,
      "learning_rate": 5e-05,
      "loss": 1.9696,
      "step": 3402
    },
    {
      "epoch": 0.4225754377250714,
      "grad_norm": 0.2793247699737549,
      "learning_rate": 5e-05,
      "loss": 2.581,
      "step": 3403
    },
    {
      "epoch": 0.4226996150502918,
      "grad_norm": 0.22381696105003357,
      "learning_rate": 5e-05,
      "loss": 1.7447,
      "step": 3404
    },
    {
      "epoch": 0.4228237923755122,
      "grad_norm": 0.5200352668762207,
      "learning_rate": 5e-05,
      "loss": 3.9713,
      "step": 3405
    },
    {
      "epoch": 0.4229479697007327,
      "grad_norm": 0.2567685842514038,
      "learning_rate": 5e-05,
      "loss": 1.8026,
      "step": 3406
    },
    {
      "epoch": 0.4230721470259531,
      "grad_norm": 0.23617665469646454,
      "learning_rate": 5e-05,
      "loss": 1.6888,
      "step": 3407
    },
    {
      "epoch": 0.4231963243511735,
      "grad_norm": 0.2345484048128128,
      "learning_rate": 5e-05,
      "loss": 1.8151,
      "step": 3408
    },
    {
      "epoch": 0.4233205016763939,
      "grad_norm": 0.2495543509721756,
      "learning_rate": 5e-05,
      "loss": 1.8372,
      "step": 3409
    },
    {
      "epoch": 0.4234446790016143,
      "grad_norm": 0.38246211409568787,
      "learning_rate": 5e-05,
      "loss": 2.4178,
      "step": 3410
    },
    {
      "epoch": 0.4235688563268347,
      "grad_norm": 0.30209487676620483,
      "learning_rate": 5e-05,
      "loss": 2.5151,
      "step": 3411
    },
    {
      "epoch": 0.42369303365205513,
      "grad_norm": 0.25495272874832153,
      "learning_rate": 5e-05,
      "loss": 2.1185,
      "step": 3412
    },
    {
      "epoch": 0.42381721097727554,
      "grad_norm": 0.2760424315929413,
      "learning_rate": 5e-05,
      "loss": 1.8604,
      "step": 3413
    },
    {
      "epoch": 0.42394138830249595,
      "grad_norm": 0.27497777342796326,
      "learning_rate": 5e-05,
      "loss": 2.052,
      "step": 3414
    },
    {
      "epoch": 0.42406556562771636,
      "grad_norm": 0.34112584590911865,
      "learning_rate": 5e-05,
      "loss": 2.0636,
      "step": 3415
    },
    {
      "epoch": 0.4241897429529368,
      "grad_norm": 0.2603628933429718,
      "learning_rate": 5e-05,
      "loss": 1.8236,
      "step": 3416
    },
    {
      "epoch": 0.42431392027815723,
      "grad_norm": 0.2946011424064636,
      "learning_rate": 5e-05,
      "loss": 2.8446,
      "step": 3417
    },
    {
      "epoch": 0.42443809760337764,
      "grad_norm": 0.2663310170173645,
      "learning_rate": 5e-05,
      "loss": 1.8928,
      "step": 3418
    },
    {
      "epoch": 0.42456227492859805,
      "grad_norm": 0.2847248911857605,
      "learning_rate": 5e-05,
      "loss": 2.1012,
      "step": 3419
    },
    {
      "epoch": 0.42468645225381846,
      "grad_norm": 0.26694995164871216,
      "learning_rate": 5e-05,
      "loss": 1.9227,
      "step": 3420
    },
    {
      "epoch": 0.42481062957903887,
      "grad_norm": 0.24277377128601074,
      "learning_rate": 5e-05,
      "loss": 1.5964,
      "step": 3421
    },
    {
      "epoch": 0.4249348069042593,
      "grad_norm": 0.271227091550827,
      "learning_rate": 5e-05,
      "loss": 2.174,
      "step": 3422
    },
    {
      "epoch": 0.4250589842294797,
      "grad_norm": 0.23910784721374512,
      "learning_rate": 5e-05,
      "loss": 1.8477,
      "step": 3423
    },
    {
      "epoch": 0.4251831615547001,
      "grad_norm": 0.2732751965522766,
      "learning_rate": 5e-05,
      "loss": 2.191,
      "step": 3424
    },
    {
      "epoch": 0.4253073388799205,
      "grad_norm": 0.23070304095745087,
      "learning_rate": 5e-05,
      "loss": 1.7937,
      "step": 3425
    },
    {
      "epoch": 0.4254315162051409,
      "grad_norm": 0.2512621581554413,
      "learning_rate": 5e-05,
      "loss": 1.7886,
      "step": 3426
    },
    {
      "epoch": 0.4255556935303614,
      "grad_norm": 0.2547200620174408,
      "learning_rate": 5e-05,
      "loss": 2.0049,
      "step": 3427
    },
    {
      "epoch": 0.4256798708555818,
      "grad_norm": 0.2578077018260956,
      "learning_rate": 5e-05,
      "loss": 1.8749,
      "step": 3428
    },
    {
      "epoch": 0.4258040481808022,
      "grad_norm": 0.24885417520999908,
      "learning_rate": 5e-05,
      "loss": 1.864,
      "step": 3429
    },
    {
      "epoch": 0.4259282255060226,
      "grad_norm": 0.24219416081905365,
      "learning_rate": 5e-05,
      "loss": 1.5677,
      "step": 3430
    },
    {
      "epoch": 0.426052402831243,
      "grad_norm": 0.2584877014160156,
      "learning_rate": 5e-05,
      "loss": 2.0624,
      "step": 3431
    },
    {
      "epoch": 0.4261765801564634,
      "grad_norm": 0.2401028722524643,
      "learning_rate": 5e-05,
      "loss": 1.614,
      "step": 3432
    },
    {
      "epoch": 0.42630075748168383,
      "grad_norm": 0.23328331112861633,
      "learning_rate": 5e-05,
      "loss": 2.0586,
      "step": 3433
    },
    {
      "epoch": 0.42642493480690424,
      "grad_norm": 0.24837568402290344,
      "learning_rate": 5e-05,
      "loss": 1.7939,
      "step": 3434
    },
    {
      "epoch": 0.42654911213212465,
      "grad_norm": 0.23399226367473602,
      "learning_rate": 5e-05,
      "loss": 1.7452,
      "step": 3435
    },
    {
      "epoch": 0.42667328945734506,
      "grad_norm": 0.235508531332016,
      "learning_rate": 5e-05,
      "loss": 1.6515,
      "step": 3436
    },
    {
      "epoch": 0.4267974667825655,
      "grad_norm": 0.260160356760025,
      "learning_rate": 5e-05,
      "loss": 2.0762,
      "step": 3437
    },
    {
      "epoch": 0.42692164410778594,
      "grad_norm": 0.5180080533027649,
      "learning_rate": 5e-05,
      "loss": 2.9584,
      "step": 3438
    },
    {
      "epoch": 0.42704582143300635,
      "grad_norm": 0.2382991462945938,
      "learning_rate": 5e-05,
      "loss": 1.9452,
      "step": 3439
    },
    {
      "epoch": 0.42716999875822675,
      "grad_norm": 0.2545469105243683,
      "learning_rate": 5e-05,
      "loss": 1.7956,
      "step": 3440
    },
    {
      "epoch": 0.42729417608344716,
      "grad_norm": 0.22551454603672028,
      "learning_rate": 5e-05,
      "loss": 1.6773,
      "step": 3441
    },
    {
      "epoch": 0.4274183534086676,
      "grad_norm": 0.2589209973812103,
      "learning_rate": 5e-05,
      "loss": 2.4389,
      "step": 3442
    },
    {
      "epoch": 0.427542530733888,
      "grad_norm": 0.2337065041065216,
      "learning_rate": 5e-05,
      "loss": 1.6075,
      "step": 3443
    },
    {
      "epoch": 0.4276667080591084,
      "grad_norm": 0.23506352305412292,
      "learning_rate": 5e-05,
      "loss": 1.4543,
      "step": 3444
    },
    {
      "epoch": 0.4277908853843288,
      "grad_norm": 0.2294839322566986,
      "learning_rate": 5e-05,
      "loss": 1.6723,
      "step": 3445
    },
    {
      "epoch": 0.4279150627095492,
      "grad_norm": 0.2340175211429596,
      "learning_rate": 5e-05,
      "loss": 1.8835,
      "step": 3446
    },
    {
      "epoch": 0.4280392400347697,
      "grad_norm": 0.24174371361732483,
      "learning_rate": 5e-05,
      "loss": 1.9464,
      "step": 3447
    },
    {
      "epoch": 0.4281634173599901,
      "grad_norm": 0.29117172956466675,
      "learning_rate": 5e-05,
      "loss": 2.0613,
      "step": 3448
    },
    {
      "epoch": 0.4282875946852105,
      "grad_norm": 0.2395106703042984,
      "learning_rate": 5e-05,
      "loss": 1.8796,
      "step": 3449
    },
    {
      "epoch": 0.4284117720104309,
      "grad_norm": 0.2718517780303955,
      "learning_rate": 5e-05,
      "loss": 2.1484,
      "step": 3450
    },
    {
      "epoch": 0.4285359493356513,
      "grad_norm": 0.24703308939933777,
      "learning_rate": 5e-05,
      "loss": 1.6969,
      "step": 3451
    },
    {
      "epoch": 0.4286601266608717,
      "grad_norm": 0.2534920871257782,
      "learning_rate": 5e-05,
      "loss": 1.9946,
      "step": 3452
    },
    {
      "epoch": 0.42878430398609213,
      "grad_norm": 0.22707927227020264,
      "learning_rate": 5e-05,
      "loss": 1.8416,
      "step": 3453
    },
    {
      "epoch": 0.42890848131131254,
      "grad_norm": 0.3400515019893646,
      "learning_rate": 5e-05,
      "loss": 2.4781,
      "step": 3454
    },
    {
      "epoch": 0.42903265863653295,
      "grad_norm": 0.24067482352256775,
      "learning_rate": 5e-05,
      "loss": 1.686,
      "step": 3455
    },
    {
      "epoch": 0.42915683596175336,
      "grad_norm": 0.2489548921585083,
      "learning_rate": 5e-05,
      "loss": 1.7761,
      "step": 3456
    },
    {
      "epoch": 0.4292810132869738,
      "grad_norm": 0.279099702835083,
      "learning_rate": 5e-05,
      "loss": 2.1486,
      "step": 3457
    },
    {
      "epoch": 0.42940519061219423,
      "grad_norm": 0.26058727502822876,
      "learning_rate": 5e-05,
      "loss": 1.916,
      "step": 3458
    },
    {
      "epoch": 0.42952936793741464,
      "grad_norm": 0.24335864186286926,
      "learning_rate": 5e-05,
      "loss": 1.7841,
      "step": 3459
    },
    {
      "epoch": 0.42965354526263505,
      "grad_norm": 0.23764993250370026,
      "learning_rate": 5e-05,
      "loss": 1.5529,
      "step": 3460
    },
    {
      "epoch": 0.42977772258785546,
      "grad_norm": 0.24684032797813416,
      "learning_rate": 5e-05,
      "loss": 1.8382,
      "step": 3461
    },
    {
      "epoch": 0.42990189991307587,
      "grad_norm": 0.2514871060848236,
      "learning_rate": 5e-05,
      "loss": 2.1144,
      "step": 3462
    },
    {
      "epoch": 0.4300260772382963,
      "grad_norm": 0.49423691630363464,
      "learning_rate": 5e-05,
      "loss": 3.249,
      "step": 3463
    },
    {
      "epoch": 0.4301502545635167,
      "grad_norm": 0.23919124901294708,
      "learning_rate": 5e-05,
      "loss": 1.6312,
      "step": 3464
    },
    {
      "epoch": 0.4302744318887371,
      "grad_norm": 0.2864331007003784,
      "learning_rate": 5e-05,
      "loss": 1.9462,
      "step": 3465
    },
    {
      "epoch": 0.4303986092139575,
      "grad_norm": 0.3184867799282074,
      "learning_rate": 5e-05,
      "loss": 2.6204,
      "step": 3466
    },
    {
      "epoch": 0.43052278653917797,
      "grad_norm": 0.3039170503616333,
      "learning_rate": 5e-05,
      "loss": 2.2353,
      "step": 3467
    },
    {
      "epoch": 0.4306469638643984,
      "grad_norm": 0.22405976057052612,
      "learning_rate": 5e-05,
      "loss": 1.6845,
      "step": 3468
    },
    {
      "epoch": 0.4307711411896188,
      "grad_norm": 0.2478765845298767,
      "learning_rate": 5e-05,
      "loss": 1.8022,
      "step": 3469
    },
    {
      "epoch": 0.4308953185148392,
      "grad_norm": 0.2638530731201172,
      "learning_rate": 5e-05,
      "loss": 2.0671,
      "step": 3470
    },
    {
      "epoch": 0.4310194958400596,
      "grad_norm": 0.26117587089538574,
      "learning_rate": 5e-05,
      "loss": 2.0145,
      "step": 3471
    },
    {
      "epoch": 0.43114367316528,
      "grad_norm": 0.25023388862609863,
      "learning_rate": 5e-05,
      "loss": 1.9008,
      "step": 3472
    },
    {
      "epoch": 0.4312678504905004,
      "grad_norm": 0.25707265734672546,
      "learning_rate": 5e-05,
      "loss": 2.142,
      "step": 3473
    },
    {
      "epoch": 0.43139202781572084,
      "grad_norm": 0.2396668642759323,
      "learning_rate": 5e-05,
      "loss": 1.8341,
      "step": 3474
    },
    {
      "epoch": 0.43151620514094124,
      "grad_norm": 0.3423267602920532,
      "learning_rate": 5e-05,
      "loss": 2.9799,
      "step": 3475
    },
    {
      "epoch": 0.43164038246616165,
      "grad_norm": 0.2501693069934845,
      "learning_rate": 5e-05,
      "loss": 1.7378,
      "step": 3476
    },
    {
      "epoch": 0.4317645597913821,
      "grad_norm": 0.26930058002471924,
      "learning_rate": 5e-05,
      "loss": 2.0415,
      "step": 3477
    },
    {
      "epoch": 0.43188873711660253,
      "grad_norm": 0.25953057408332825,
      "learning_rate": 5e-05,
      "loss": 1.777,
      "step": 3478
    },
    {
      "epoch": 0.43201291444182294,
      "grad_norm": 0.3278453052043915,
      "learning_rate": 5e-05,
      "loss": 2.3855,
      "step": 3479
    },
    {
      "epoch": 0.43213709176704335,
      "grad_norm": 0.2620750367641449,
      "learning_rate": 5e-05,
      "loss": 2.0836,
      "step": 3480
    },
    {
      "epoch": 0.43226126909226376,
      "grad_norm": 0.2250550091266632,
      "learning_rate": 5e-05,
      "loss": 1.6408,
      "step": 3481
    },
    {
      "epoch": 0.43238544641748416,
      "grad_norm": 0.2998541593551636,
      "learning_rate": 5e-05,
      "loss": 1.9747,
      "step": 3482
    },
    {
      "epoch": 0.4325096237427046,
      "grad_norm": 0.3165997862815857,
      "learning_rate": 5e-05,
      "loss": 2.2144,
      "step": 3483
    },
    {
      "epoch": 0.432633801067925,
      "grad_norm": 0.2683013379573822,
      "learning_rate": 5e-05,
      "loss": 1.6844,
      "step": 3484
    },
    {
      "epoch": 0.4327579783931454,
      "grad_norm": 0.2699425220489502,
      "learning_rate": 5e-05,
      "loss": 2.0721,
      "step": 3485
    },
    {
      "epoch": 0.4328821557183658,
      "grad_norm": 0.3582903742790222,
      "learning_rate": 5e-05,
      "loss": 2.5996,
      "step": 3486
    },
    {
      "epoch": 0.43300633304358627,
      "grad_norm": 0.26281240582466125,
      "learning_rate": 5e-05,
      "loss": 1.79,
      "step": 3487
    },
    {
      "epoch": 0.4331305103688067,
      "grad_norm": 0.2991257309913635,
      "learning_rate": 5e-05,
      "loss": 1.8693,
      "step": 3488
    },
    {
      "epoch": 0.4332546876940271,
      "grad_norm": 0.27996915578842163,
      "learning_rate": 5e-05,
      "loss": 1.9153,
      "step": 3489
    },
    {
      "epoch": 0.4333788650192475,
      "grad_norm": 0.25853192806243896,
      "learning_rate": 5e-05,
      "loss": 1.8618,
      "step": 3490
    },
    {
      "epoch": 0.4335030423444679,
      "grad_norm": 0.2344485968351364,
      "learning_rate": 5e-05,
      "loss": 1.7231,
      "step": 3491
    },
    {
      "epoch": 0.4336272196696883,
      "grad_norm": 0.2821890115737915,
      "learning_rate": 5e-05,
      "loss": 1.9678,
      "step": 3492
    },
    {
      "epoch": 0.4337513969949087,
      "grad_norm": 0.248769611120224,
      "learning_rate": 5e-05,
      "loss": 1.8066,
      "step": 3493
    },
    {
      "epoch": 0.43387557432012913,
      "grad_norm": 0.39514604210853577,
      "learning_rate": 5e-05,
      "loss": 2.4974,
      "step": 3494
    },
    {
      "epoch": 0.43399975164534954,
      "grad_norm": 0.4927578270435333,
      "learning_rate": 5e-05,
      "loss": 3.142,
      "step": 3495
    },
    {
      "epoch": 0.43412392897056995,
      "grad_norm": 0.23819269239902496,
      "learning_rate": 5e-05,
      "loss": 1.9909,
      "step": 3496
    },
    {
      "epoch": 0.4342481062957904,
      "grad_norm": 0.23613961040973663,
      "learning_rate": 5e-05,
      "loss": 1.7541,
      "step": 3497
    },
    {
      "epoch": 0.4343722836210108,
      "grad_norm": 0.2758491337299347,
      "learning_rate": 5e-05,
      "loss": 1.8724,
      "step": 3498
    },
    {
      "epoch": 0.43449646094623123,
      "grad_norm": 0.2569511830806732,
      "learning_rate": 5e-05,
      "loss": 1.8173,
      "step": 3499
    },
    {
      "epoch": 0.43462063827145164,
      "grad_norm": 0.27499228715896606,
      "learning_rate": 5e-05,
      "loss": 1.8167,
      "step": 3500
    },
    {
      "epoch": 0.43474481559667205,
      "grad_norm": 0.2717130482196808,
      "learning_rate": 5e-05,
      "loss": 1.997,
      "step": 3501
    },
    {
      "epoch": 0.43486899292189246,
      "grad_norm": 0.22984832525253296,
      "learning_rate": 5e-05,
      "loss": 1.6562,
      "step": 3502
    },
    {
      "epoch": 0.43499317024711287,
      "grad_norm": 0.249094620347023,
      "learning_rate": 5e-05,
      "loss": 2.1802,
      "step": 3503
    },
    {
      "epoch": 0.4351173475723333,
      "grad_norm": 0.25387057662010193,
      "learning_rate": 5e-05,
      "loss": 1.723,
      "step": 3504
    },
    {
      "epoch": 0.4352415248975537,
      "grad_norm": 0.2589643895626068,
      "learning_rate": 5e-05,
      "loss": 1.9266,
      "step": 3505
    },
    {
      "epoch": 0.4353657022227741,
      "grad_norm": 0.24656008183956146,
      "learning_rate": 5e-05,
      "loss": 1.6418,
      "step": 3506
    },
    {
      "epoch": 0.43548987954799456,
      "grad_norm": 0.2364129275083542,
      "learning_rate": 5e-05,
      "loss": 1.8593,
      "step": 3507
    },
    {
      "epoch": 0.43561405687321497,
      "grad_norm": 0.2388906031847,
      "learning_rate": 5e-05,
      "loss": 1.7846,
      "step": 3508
    },
    {
      "epoch": 0.4357382341984354,
      "grad_norm": 0.23374655842781067,
      "learning_rate": 5e-05,
      "loss": 1.4973,
      "step": 3509
    },
    {
      "epoch": 0.4358624115236558,
      "grad_norm": 0.2885374128818512,
      "learning_rate": 5e-05,
      "loss": 2.0409,
      "step": 3510
    },
    {
      "epoch": 0.4359865888488762,
      "grad_norm": 0.25313517451286316,
      "learning_rate": 5e-05,
      "loss": 1.765,
      "step": 3511
    },
    {
      "epoch": 0.4361107661740966,
      "grad_norm": 0.2653907835483551,
      "learning_rate": 5e-05,
      "loss": 2.1002,
      "step": 3512
    },
    {
      "epoch": 0.436234943499317,
      "grad_norm": 0.29488423466682434,
      "learning_rate": 5e-05,
      "loss": 2.4307,
      "step": 3513
    },
    {
      "epoch": 0.4363591208245374,
      "grad_norm": 0.3677636384963989,
      "learning_rate": 5e-05,
      "loss": 3.1984,
      "step": 3514
    },
    {
      "epoch": 0.43648329814975784,
      "grad_norm": 0.22892718017101288,
      "learning_rate": 5e-05,
      "loss": 1.8443,
      "step": 3515
    },
    {
      "epoch": 0.43660747547497825,
      "grad_norm": 0.26028916239738464,
      "learning_rate": 5e-05,
      "loss": 1.9034,
      "step": 3516
    },
    {
      "epoch": 0.4367316528001987,
      "grad_norm": 0.3582562506198883,
      "learning_rate": 5e-05,
      "loss": 2.6214,
      "step": 3517
    },
    {
      "epoch": 0.4368558301254191,
      "grad_norm": 0.29447731375694275,
      "learning_rate": 5e-05,
      "loss": 2.8645,
      "step": 3518
    },
    {
      "epoch": 0.43698000745063953,
      "grad_norm": 0.26604095101356506,
      "learning_rate": 5e-05,
      "loss": 2.0877,
      "step": 3519
    },
    {
      "epoch": 0.43710418477585994,
      "grad_norm": 0.24459725618362427,
      "learning_rate": 5e-05,
      "loss": 1.9573,
      "step": 3520
    },
    {
      "epoch": 0.43722836210108035,
      "grad_norm": 0.2366792857646942,
      "learning_rate": 5e-05,
      "loss": 1.7362,
      "step": 3521
    },
    {
      "epoch": 0.43735253942630076,
      "grad_norm": 0.2448722869157791,
      "learning_rate": 5e-05,
      "loss": 1.9418,
      "step": 3522
    },
    {
      "epoch": 0.43747671675152117,
      "grad_norm": 0.2431691735982895,
      "learning_rate": 5e-05,
      "loss": 1.8435,
      "step": 3523
    },
    {
      "epoch": 0.4376008940767416,
      "grad_norm": 0.2532593905925751,
      "learning_rate": 5e-05,
      "loss": 2.2679,
      "step": 3524
    },
    {
      "epoch": 0.437725071401962,
      "grad_norm": 0.26807379722595215,
      "learning_rate": 5e-05,
      "loss": 2.7244,
      "step": 3525
    },
    {
      "epoch": 0.4378492487271824,
      "grad_norm": 0.2699643671512604,
      "learning_rate": 5e-05,
      "loss": 2.2042,
      "step": 3526
    },
    {
      "epoch": 0.43797342605240286,
      "grad_norm": 0.23252953588962555,
      "learning_rate": 5e-05,
      "loss": 1.9205,
      "step": 3527
    },
    {
      "epoch": 0.43809760337762327,
      "grad_norm": 0.2471930980682373,
      "learning_rate": 5e-05,
      "loss": 2.0198,
      "step": 3528
    },
    {
      "epoch": 0.4382217807028437,
      "grad_norm": 0.25804635882377625,
      "learning_rate": 5e-05,
      "loss": 2.1311,
      "step": 3529
    },
    {
      "epoch": 0.4383459580280641,
      "grad_norm": 0.2536420226097107,
      "learning_rate": 5e-05,
      "loss": 1.9975,
      "step": 3530
    },
    {
      "epoch": 0.4384701353532845,
      "grad_norm": 0.23809343576431274,
      "learning_rate": 5e-05,
      "loss": 1.7388,
      "step": 3531
    },
    {
      "epoch": 0.4385943126785049,
      "grad_norm": 0.30638399720191956,
      "learning_rate": 5e-05,
      "loss": 2.4784,
      "step": 3532
    },
    {
      "epoch": 0.4387184900037253,
      "grad_norm": 0.2595226466655731,
      "learning_rate": 5e-05,
      "loss": 2.2256,
      "step": 3533
    },
    {
      "epoch": 0.4388426673289457,
      "grad_norm": 0.35969939827919006,
      "learning_rate": 5e-05,
      "loss": 2.8512,
      "step": 3534
    },
    {
      "epoch": 0.43896684465416613,
      "grad_norm": 0.23786823451519012,
      "learning_rate": 5e-05,
      "loss": 1.8273,
      "step": 3535
    },
    {
      "epoch": 0.43909102197938654,
      "grad_norm": 0.293653666973114,
      "learning_rate": 5e-05,
      "loss": 2.2023,
      "step": 3536
    },
    {
      "epoch": 0.43921519930460695,
      "grad_norm": 0.2556871473789215,
      "learning_rate": 5e-05,
      "loss": 1.9264,
      "step": 3537
    },
    {
      "epoch": 0.4393393766298274,
      "grad_norm": 0.236263245344162,
      "learning_rate": 5e-05,
      "loss": 1.8319,
      "step": 3538
    },
    {
      "epoch": 0.4394635539550478,
      "grad_norm": 0.24975807964801788,
      "learning_rate": 5e-05,
      "loss": 1.8151,
      "step": 3539
    },
    {
      "epoch": 0.43958773128026823,
      "grad_norm": 0.2677541971206665,
      "learning_rate": 5e-05,
      "loss": 2.1277,
      "step": 3540
    },
    {
      "epoch": 0.43971190860548864,
      "grad_norm": 0.24418696761131287,
      "learning_rate": 5e-05,
      "loss": 1.7876,
      "step": 3541
    },
    {
      "epoch": 0.43983608593070905,
      "grad_norm": 0.272847443819046,
      "learning_rate": 5e-05,
      "loss": 2.1651,
      "step": 3542
    },
    {
      "epoch": 0.43996026325592946,
      "grad_norm": 0.24691055715084076,
      "learning_rate": 5e-05,
      "loss": 2.2033,
      "step": 3543
    },
    {
      "epoch": 0.44008444058114987,
      "grad_norm": 0.24864870309829712,
      "learning_rate": 5e-05,
      "loss": 2.0583,
      "step": 3544
    },
    {
      "epoch": 0.4402086179063703,
      "grad_norm": 0.2729315161705017,
      "learning_rate": 5e-05,
      "loss": 2.1486,
      "step": 3545
    },
    {
      "epoch": 0.4403327952315907,
      "grad_norm": 0.31387004256248474,
      "learning_rate": 5e-05,
      "loss": 2.4992,
      "step": 3546
    },
    {
      "epoch": 0.4404569725568111,
      "grad_norm": 0.25067535042762756,
      "learning_rate": 5e-05,
      "loss": 2.1168,
      "step": 3547
    },
    {
      "epoch": 0.44058114988203156,
      "grad_norm": 0.2915966808795929,
      "learning_rate": 5e-05,
      "loss": 2.731,
      "step": 3548
    },
    {
      "epoch": 0.440705327207252,
      "grad_norm": 0.4438944458961487,
      "learning_rate": 5e-05,
      "loss": 2.565,
      "step": 3549
    },
    {
      "epoch": 0.4408295045324724,
      "grad_norm": 0.34015870094299316,
      "learning_rate": 5e-05,
      "loss": 2.0059,
      "step": 3550
    },
    {
      "epoch": 0.4409536818576928,
      "grad_norm": 0.23272156715393066,
      "learning_rate": 5e-05,
      "loss": 1.8236,
      "step": 3551
    },
    {
      "epoch": 0.4410778591829132,
      "grad_norm": 0.2400742471218109,
      "learning_rate": 5e-05,
      "loss": 1.8719,
      "step": 3552
    },
    {
      "epoch": 0.4412020365081336,
      "grad_norm": 0.25298693776130676,
      "learning_rate": 5e-05,
      "loss": 2.2296,
      "step": 3553
    },
    {
      "epoch": 0.441326213833354,
      "grad_norm": 0.25967708230018616,
      "learning_rate": 5e-05,
      "loss": 1.9136,
      "step": 3554
    },
    {
      "epoch": 0.44145039115857443,
      "grad_norm": 0.42393115162849426,
      "learning_rate": 5e-05,
      "loss": 2.341,
      "step": 3555
    },
    {
      "epoch": 0.44157456848379484,
      "grad_norm": 0.2446475327014923,
      "learning_rate": 5e-05,
      "loss": 1.7585,
      "step": 3556
    },
    {
      "epoch": 0.44169874580901525,
      "grad_norm": 0.2373843789100647,
      "learning_rate": 5e-05,
      "loss": 1.6981,
      "step": 3557
    },
    {
      "epoch": 0.4418229231342357,
      "grad_norm": 0.2612886130809784,
      "learning_rate": 5e-05,
      "loss": 2.4158,
      "step": 3558
    },
    {
      "epoch": 0.4419471004594561,
      "grad_norm": 0.2711560130119324,
      "learning_rate": 5e-05,
      "loss": 2.4973,
      "step": 3559
    },
    {
      "epoch": 0.44207127778467653,
      "grad_norm": 0.23028486967086792,
      "learning_rate": 5e-05,
      "loss": 1.7704,
      "step": 3560
    },
    {
      "epoch": 0.44219545510989694,
      "grad_norm": 0.28811317682266235,
      "learning_rate": 5e-05,
      "loss": 2.1237,
      "step": 3561
    },
    {
      "epoch": 0.44231963243511735,
      "grad_norm": 0.27257639169692993,
      "learning_rate": 5e-05,
      "loss": 2.1849,
      "step": 3562
    },
    {
      "epoch": 0.44244380976033776,
      "grad_norm": 0.2721487879753113,
      "learning_rate": 5e-05,
      "loss": 1.9617,
      "step": 3563
    },
    {
      "epoch": 0.44256798708555817,
      "grad_norm": 0.23857803642749786,
      "learning_rate": 5e-05,
      "loss": 1.8732,
      "step": 3564
    },
    {
      "epoch": 0.4426921644107786,
      "grad_norm": 0.26304367184638977,
      "learning_rate": 5e-05,
      "loss": 2.0674,
      "step": 3565
    },
    {
      "epoch": 0.442816341735999,
      "grad_norm": 0.23700681328773499,
      "learning_rate": 5e-05,
      "loss": 1.5074,
      "step": 3566
    },
    {
      "epoch": 0.4429405190612194,
      "grad_norm": 0.26313093304634094,
      "learning_rate": 5e-05,
      "loss": 2.1541,
      "step": 3567
    },
    {
      "epoch": 0.44306469638643986,
      "grad_norm": 0.2672451436519623,
      "learning_rate": 5e-05,
      "loss": 2.2609,
      "step": 3568
    },
    {
      "epoch": 0.44318887371166027,
      "grad_norm": 0.2410428673028946,
      "learning_rate": 5e-05,
      "loss": 1.7374,
      "step": 3569
    },
    {
      "epoch": 0.4433130510368807,
      "grad_norm": 0.24282702803611755,
      "learning_rate": 5e-05,
      "loss": 1.8673,
      "step": 3570
    },
    {
      "epoch": 0.4434372283621011,
      "grad_norm": 0.26424652338027954,
      "learning_rate": 5e-05,
      "loss": 1.8558,
      "step": 3571
    },
    {
      "epoch": 0.4435614056873215,
      "grad_norm": 0.2430584728717804,
      "learning_rate": 5e-05,
      "loss": 2.0269,
      "step": 3572
    },
    {
      "epoch": 0.4436855830125419,
      "grad_norm": 0.24861913919448853,
      "learning_rate": 5e-05,
      "loss": 2.0461,
      "step": 3573
    },
    {
      "epoch": 0.4438097603377623,
      "grad_norm": 0.24841603636741638,
      "learning_rate": 5e-05,
      "loss": 1.8209,
      "step": 3574
    },
    {
      "epoch": 0.4439339376629827,
      "grad_norm": 0.2474074512720108,
      "learning_rate": 5e-05,
      "loss": 1.8925,
      "step": 3575
    },
    {
      "epoch": 0.44405811498820313,
      "grad_norm": 0.23635539412498474,
      "learning_rate": 5e-05,
      "loss": 1.7828,
      "step": 3576
    },
    {
      "epoch": 0.44418229231342354,
      "grad_norm": 0.2570820748806,
      "learning_rate": 5e-05,
      "loss": 2.4142,
      "step": 3577
    },
    {
      "epoch": 0.444306469638644,
      "grad_norm": 0.35572877526283264,
      "learning_rate": 5e-05,
      "loss": 2.547,
      "step": 3578
    },
    {
      "epoch": 0.4444306469638644,
      "grad_norm": 0.2536236345767975,
      "learning_rate": 5e-05,
      "loss": 1.7313,
      "step": 3579
    },
    {
      "epoch": 0.4445548242890848,
      "grad_norm": 0.2337023764848709,
      "learning_rate": 5e-05,
      "loss": 1.7236,
      "step": 3580
    },
    {
      "epoch": 0.44467900161430524,
      "grad_norm": 0.2915627062320709,
      "learning_rate": 5e-05,
      "loss": 2.1736,
      "step": 3581
    },
    {
      "epoch": 0.44480317893952565,
      "grad_norm": 0.24729955196380615,
      "learning_rate": 5e-05,
      "loss": 1.8573,
      "step": 3582
    },
    {
      "epoch": 0.44492735626474605,
      "grad_norm": 0.2714468836784363,
      "learning_rate": 5e-05,
      "loss": 2.5826,
      "step": 3583
    },
    {
      "epoch": 0.44505153358996646,
      "grad_norm": 0.24210494756698608,
      "learning_rate": 5e-05,
      "loss": 1.634,
      "step": 3584
    },
    {
      "epoch": 0.4451757109151869,
      "grad_norm": 0.28783100843429565,
      "learning_rate": 5e-05,
      "loss": 2.8731,
      "step": 3585
    },
    {
      "epoch": 0.4452998882404073,
      "grad_norm": 0.257840096950531,
      "learning_rate": 5e-05,
      "loss": 2.0271,
      "step": 3586
    },
    {
      "epoch": 0.4454240655656277,
      "grad_norm": 0.27797460556030273,
      "learning_rate": 5e-05,
      "loss": 2.3401,
      "step": 3587
    },
    {
      "epoch": 0.44554824289084816,
      "grad_norm": 0.26590582728385925,
      "learning_rate": 5e-05,
      "loss": 2.5732,
      "step": 3588
    },
    {
      "epoch": 0.44567242021606857,
      "grad_norm": 0.2545289993286133,
      "learning_rate": 5e-05,
      "loss": 2.055,
      "step": 3589
    },
    {
      "epoch": 0.445796597541289,
      "grad_norm": 0.27943652868270874,
      "learning_rate": 5e-05,
      "loss": 2.6795,
      "step": 3590
    },
    {
      "epoch": 0.4459207748665094,
      "grad_norm": 0.2627931833267212,
      "learning_rate": 5e-05,
      "loss": 2.0831,
      "step": 3591
    },
    {
      "epoch": 0.4460449521917298,
      "grad_norm": 0.2529352903366089,
      "learning_rate": 5e-05,
      "loss": 1.7692,
      "step": 3592
    },
    {
      "epoch": 0.4461691295169502,
      "grad_norm": 0.2594928741455078,
      "learning_rate": 5e-05,
      "loss": 1.9044,
      "step": 3593
    },
    {
      "epoch": 0.4462933068421706,
      "grad_norm": 0.249286487698555,
      "learning_rate": 5e-05,
      "loss": 1.7774,
      "step": 3594
    },
    {
      "epoch": 0.446417484167391,
      "grad_norm": 0.36518681049346924,
      "learning_rate": 5e-05,
      "loss": 3.0051,
      "step": 3595
    },
    {
      "epoch": 0.44654166149261143,
      "grad_norm": 0.2684462368488312,
      "learning_rate": 5e-05,
      "loss": 2.1218,
      "step": 3596
    },
    {
      "epoch": 0.44666583881783184,
      "grad_norm": 0.27154868841171265,
      "learning_rate": 5e-05,
      "loss": 2.225,
      "step": 3597
    },
    {
      "epoch": 0.4467900161430523,
      "grad_norm": 0.24538029730319977,
      "learning_rate": 5e-05,
      "loss": 1.7131,
      "step": 3598
    },
    {
      "epoch": 0.4469141934682727,
      "grad_norm": 0.24630869925022125,
      "learning_rate": 5e-05,
      "loss": 1.709,
      "step": 3599
    },
    {
      "epoch": 0.4470383707934931,
      "grad_norm": 0.2505440413951874,
      "learning_rate": 5e-05,
      "loss": 1.8827,
      "step": 3600
    },
    {
      "epoch": 0.44716254811871353,
      "grad_norm": 0.2851535379886627,
      "learning_rate": 5e-05,
      "loss": 2.1343,
      "step": 3601
    },
    {
      "epoch": 0.44728672544393394,
      "grad_norm": 0.26223599910736084,
      "learning_rate": 5e-05,
      "loss": 1.8654,
      "step": 3602
    },
    {
      "epoch": 0.44741090276915435,
      "grad_norm": 0.24509179592132568,
      "learning_rate": 5e-05,
      "loss": 1.9708,
      "step": 3603
    },
    {
      "epoch": 0.44753508009437476,
      "grad_norm": 0.30279234051704407,
      "learning_rate": 5e-05,
      "loss": 2.2681,
      "step": 3604
    },
    {
      "epoch": 0.44765925741959517,
      "grad_norm": 0.257269948720932,
      "learning_rate": 5e-05,
      "loss": 1.9764,
      "step": 3605
    },
    {
      "epoch": 0.4477834347448156,
      "grad_norm": 0.261173278093338,
      "learning_rate": 5e-05,
      "loss": 2.3032,
      "step": 3606
    },
    {
      "epoch": 0.447907612070036,
      "grad_norm": 0.3636569678783417,
      "learning_rate": 5e-05,
      "loss": 2.8534,
      "step": 3607
    },
    {
      "epoch": 0.44803178939525645,
      "grad_norm": 0.22757330536842346,
      "learning_rate": 5e-05,
      "loss": 1.7358,
      "step": 3608
    },
    {
      "epoch": 0.44815596672047686,
      "grad_norm": 0.23848308622837067,
      "learning_rate": 5e-05,
      "loss": 1.7782,
      "step": 3609
    },
    {
      "epoch": 0.44828014404569727,
      "grad_norm": 0.25233447551727295,
      "learning_rate": 5e-05,
      "loss": 1.7118,
      "step": 3610
    },
    {
      "epoch": 0.4484043213709177,
      "grad_norm": 0.270443856716156,
      "learning_rate": 5e-05,
      "loss": 2.2098,
      "step": 3611
    },
    {
      "epoch": 0.4485284986961381,
      "grad_norm": 0.33944758772850037,
      "learning_rate": 5e-05,
      "loss": 2.7892,
      "step": 3612
    },
    {
      "epoch": 0.4486526760213585,
      "grad_norm": 0.3116800785064697,
      "learning_rate": 5e-05,
      "loss": 2.8959,
      "step": 3613
    },
    {
      "epoch": 0.4487768533465789,
      "grad_norm": 0.2481691986322403,
      "learning_rate": 5e-05,
      "loss": 1.9309,
      "step": 3614
    },
    {
      "epoch": 0.4489010306717993,
      "grad_norm": 0.25150108337402344,
      "learning_rate": 5e-05,
      "loss": 1.9542,
      "step": 3615
    },
    {
      "epoch": 0.4490252079970197,
      "grad_norm": 0.2553020715713501,
      "learning_rate": 5e-05,
      "loss": 1.8089,
      "step": 3616
    },
    {
      "epoch": 0.44914938532224014,
      "grad_norm": 0.2526760697364807,
      "learning_rate": 5e-05,
      "loss": 2.1786,
      "step": 3617
    },
    {
      "epoch": 0.4492735626474606,
      "grad_norm": 0.29077330231666565,
      "learning_rate": 5e-05,
      "loss": 2.1449,
      "step": 3618
    },
    {
      "epoch": 0.449397739972681,
      "grad_norm": 0.2767769992351532,
      "learning_rate": 5e-05,
      "loss": 2.0351,
      "step": 3619
    },
    {
      "epoch": 0.4495219172979014,
      "grad_norm": 0.2682516276836395,
      "learning_rate": 5e-05,
      "loss": 1.7652,
      "step": 3620
    },
    {
      "epoch": 0.44964609462312183,
      "grad_norm": 0.2579279839992523,
      "learning_rate": 5e-05,
      "loss": 2.1802,
      "step": 3621
    },
    {
      "epoch": 0.44977027194834224,
      "grad_norm": 0.28205546736717224,
      "learning_rate": 5e-05,
      "loss": 2.1566,
      "step": 3622
    },
    {
      "epoch": 0.44989444927356265,
      "grad_norm": 0.2978857457637787,
      "learning_rate": 5e-05,
      "loss": 2.1345,
      "step": 3623
    },
    {
      "epoch": 0.45001862659878306,
      "grad_norm": 0.23637983202934265,
      "learning_rate": 5e-05,
      "loss": 1.8078,
      "step": 3624
    },
    {
      "epoch": 0.45014280392400347,
      "grad_norm": 0.2526599168777466,
      "learning_rate": 5e-05,
      "loss": 1.7115,
      "step": 3625
    },
    {
      "epoch": 0.4502669812492239,
      "grad_norm": 0.46913304924964905,
      "learning_rate": 5e-05,
      "loss": 2.0266,
      "step": 3626
    },
    {
      "epoch": 0.4503911585744443,
      "grad_norm": 0.24125505983829498,
      "learning_rate": 5e-05,
      "loss": 1.8029,
      "step": 3627
    },
    {
      "epoch": 0.45051533589966475,
      "grad_norm": 0.36426547169685364,
      "learning_rate": 5e-05,
      "loss": 3.1303,
      "step": 3628
    },
    {
      "epoch": 0.45063951322488516,
      "grad_norm": 0.2742426097393036,
      "learning_rate": 5e-05,
      "loss": 2.3707,
      "step": 3629
    },
    {
      "epoch": 0.45076369055010557,
      "grad_norm": 0.28186655044555664,
      "learning_rate": 5e-05,
      "loss": 2.044,
      "step": 3630
    },
    {
      "epoch": 0.450887867875326,
      "grad_norm": 0.2517007291316986,
      "learning_rate": 5e-05,
      "loss": 2.1004,
      "step": 3631
    },
    {
      "epoch": 0.4510120452005464,
      "grad_norm": 0.2443215698003769,
      "learning_rate": 5e-05,
      "loss": 1.9075,
      "step": 3632
    },
    {
      "epoch": 0.4511362225257668,
      "grad_norm": 0.30474352836608887,
      "learning_rate": 5e-05,
      "loss": 2.6504,
      "step": 3633
    },
    {
      "epoch": 0.4512603998509872,
      "grad_norm": 0.24801456928253174,
      "learning_rate": 5e-05,
      "loss": 1.9028,
      "step": 3634
    },
    {
      "epoch": 0.4513845771762076,
      "grad_norm": 0.24547287821769714,
      "learning_rate": 5e-05,
      "loss": 1.7863,
      "step": 3635
    },
    {
      "epoch": 0.451508754501428,
      "grad_norm": 0.2354976385831833,
      "learning_rate": 5e-05,
      "loss": 1.8193,
      "step": 3636
    },
    {
      "epoch": 0.45163293182664843,
      "grad_norm": 0.22470952570438385,
      "learning_rate": 5e-05,
      "loss": 1.4583,
      "step": 3637
    },
    {
      "epoch": 0.4517571091518689,
      "grad_norm": 0.24142299592494965,
      "learning_rate": 5e-05,
      "loss": 1.6473,
      "step": 3638
    },
    {
      "epoch": 0.4518812864770893,
      "grad_norm": 0.2592025399208069,
      "learning_rate": 5e-05,
      "loss": 1.8388,
      "step": 3639
    },
    {
      "epoch": 0.4520054638023097,
      "grad_norm": 0.23507888615131378,
      "learning_rate": 5e-05,
      "loss": 1.4999,
      "step": 3640
    },
    {
      "epoch": 0.4521296411275301,
      "grad_norm": 0.44732698798179626,
      "learning_rate": 5e-05,
      "loss": 2.5855,
      "step": 3641
    },
    {
      "epoch": 0.45225381845275053,
      "grad_norm": 0.2762181758880615,
      "learning_rate": 5e-05,
      "loss": 2.441,
      "step": 3642
    },
    {
      "epoch": 0.45237799577797094,
      "grad_norm": 0.2453155517578125,
      "learning_rate": 5e-05,
      "loss": 1.8225,
      "step": 3643
    },
    {
      "epoch": 0.45250217310319135,
      "grad_norm": 0.2706897556781769,
      "learning_rate": 5e-05,
      "loss": 2.0773,
      "step": 3644
    },
    {
      "epoch": 0.45262635042841176,
      "grad_norm": 0.24604804813861847,
      "learning_rate": 5e-05,
      "loss": 1.7866,
      "step": 3645
    },
    {
      "epoch": 0.45275052775363217,
      "grad_norm": 0.2511715292930603,
      "learning_rate": 5e-05,
      "loss": 1.6364,
      "step": 3646
    },
    {
      "epoch": 0.4528747050788526,
      "grad_norm": 0.2393648475408554,
      "learning_rate": 5e-05,
      "loss": 1.8031,
      "step": 3647
    },
    {
      "epoch": 0.452998882404073,
      "grad_norm": 0.32893240451812744,
      "learning_rate": 5e-05,
      "loss": 2.9534,
      "step": 3648
    },
    {
      "epoch": 0.45312305972929345,
      "grad_norm": 0.2726787328720093,
      "learning_rate": 5e-05,
      "loss": 2.158,
      "step": 3649
    },
    {
      "epoch": 0.45324723705451386,
      "grad_norm": 0.24405358731746674,
      "learning_rate": 5e-05,
      "loss": 1.8065,
      "step": 3650
    },
    {
      "epoch": 0.45337141437973427,
      "grad_norm": 0.289327472448349,
      "learning_rate": 5e-05,
      "loss": 1.9226,
      "step": 3651
    },
    {
      "epoch": 0.4534955917049547,
      "grad_norm": 0.2605152726173401,
      "learning_rate": 5e-05,
      "loss": 1.9381,
      "step": 3652
    },
    {
      "epoch": 0.4536197690301751,
      "grad_norm": 0.5991039872169495,
      "learning_rate": 5e-05,
      "loss": 2.9309,
      "step": 3653
    },
    {
      "epoch": 0.4537439463553955,
      "grad_norm": 0.2568708658218384,
      "learning_rate": 5e-05,
      "loss": 2.0779,
      "step": 3654
    },
    {
      "epoch": 0.4538681236806159,
      "grad_norm": 0.3010365068912506,
      "learning_rate": 5e-05,
      "loss": 2.0548,
      "step": 3655
    },
    {
      "epoch": 0.4539923010058363,
      "grad_norm": 0.274974524974823,
      "learning_rate": 5e-05,
      "loss": 2.4077,
      "step": 3656
    },
    {
      "epoch": 0.4541164783310567,
      "grad_norm": 0.28107506036758423,
      "learning_rate": 5e-05,
      "loss": 2.2441,
      "step": 3657
    },
    {
      "epoch": 0.45424065565627714,
      "grad_norm": 0.23606228828430176,
      "learning_rate": 5e-05,
      "loss": 1.8557,
      "step": 3658
    },
    {
      "epoch": 0.4543648329814976,
      "grad_norm": 0.39235198497772217,
      "learning_rate": 5e-05,
      "loss": 2.724,
      "step": 3659
    },
    {
      "epoch": 0.454489010306718,
      "grad_norm": 0.24546925723552704,
      "learning_rate": 5e-05,
      "loss": 2.1356,
      "step": 3660
    },
    {
      "epoch": 0.4546131876319384,
      "grad_norm": 0.2840039134025574,
      "learning_rate": 5e-05,
      "loss": 2.5487,
      "step": 3661
    },
    {
      "epoch": 0.45473736495715883,
      "grad_norm": 0.2581782042980194,
      "learning_rate": 5e-05,
      "loss": 2.0953,
      "step": 3662
    },
    {
      "epoch": 0.45486154228237924,
      "grad_norm": 0.28797447681427,
      "learning_rate": 5e-05,
      "loss": 2.7819,
      "step": 3663
    },
    {
      "epoch": 0.45498571960759965,
      "grad_norm": 0.30103740096092224,
      "learning_rate": 5e-05,
      "loss": 2.3426,
      "step": 3664
    },
    {
      "epoch": 0.45510989693282006,
      "grad_norm": 0.26766613125801086,
      "learning_rate": 5e-05,
      "loss": 2.08,
      "step": 3665
    },
    {
      "epoch": 0.45523407425804047,
      "grad_norm": 0.271410197019577,
      "learning_rate": 5e-05,
      "loss": 1.9295,
      "step": 3666
    },
    {
      "epoch": 0.4553582515832609,
      "grad_norm": 0.28217509388923645,
      "learning_rate": 5e-05,
      "loss": 1.7145,
      "step": 3667
    },
    {
      "epoch": 0.4554824289084813,
      "grad_norm": 0.2470954954624176,
      "learning_rate": 5e-05,
      "loss": 1.9962,
      "step": 3668
    },
    {
      "epoch": 0.45560660623370175,
      "grad_norm": 0.2428179234266281,
      "learning_rate": 5e-05,
      "loss": 1.8761,
      "step": 3669
    },
    {
      "epoch": 0.45573078355892216,
      "grad_norm": 0.2993158996105194,
      "learning_rate": 5e-05,
      "loss": 2.0549,
      "step": 3670
    },
    {
      "epoch": 0.45585496088414257,
      "grad_norm": 0.25695863366127014,
      "learning_rate": 5e-05,
      "loss": 1.9042,
      "step": 3671
    },
    {
      "epoch": 0.455979138209363,
      "grad_norm": 0.255073606967926,
      "learning_rate": 5e-05,
      "loss": 1.9973,
      "step": 3672
    },
    {
      "epoch": 0.4561033155345834,
      "grad_norm": 0.2622082531452179,
      "learning_rate": 5e-05,
      "loss": 2.1832,
      "step": 3673
    },
    {
      "epoch": 0.4562274928598038,
      "grad_norm": 0.2978021800518036,
      "learning_rate": 5e-05,
      "loss": 2.3905,
      "step": 3674
    },
    {
      "epoch": 0.4563516701850242,
      "grad_norm": 0.23439711332321167,
      "learning_rate": 5e-05,
      "loss": 1.6926,
      "step": 3675
    },
    {
      "epoch": 0.4564758475102446,
      "grad_norm": 0.25187382102012634,
      "learning_rate": 5e-05,
      "loss": 1.9492,
      "step": 3676
    },
    {
      "epoch": 0.456600024835465,
      "grad_norm": 0.2353617548942566,
      "learning_rate": 5e-05,
      "loss": 1.9207,
      "step": 3677
    },
    {
      "epoch": 0.45672420216068543,
      "grad_norm": 0.2954971194267273,
      "learning_rate": 5e-05,
      "loss": 2.7884,
      "step": 3678
    },
    {
      "epoch": 0.4568483794859059,
      "grad_norm": 0.342014342546463,
      "learning_rate": 5e-05,
      "loss": 2.7057,
      "step": 3679
    },
    {
      "epoch": 0.4569725568111263,
      "grad_norm": 0.2446756511926651,
      "learning_rate": 5e-05,
      "loss": 1.7201,
      "step": 3680
    },
    {
      "epoch": 0.4570967341363467,
      "grad_norm": 0.3007001280784607,
      "learning_rate": 5e-05,
      "loss": 2.8884,
      "step": 3681
    },
    {
      "epoch": 0.4572209114615671,
      "grad_norm": 0.3524860739707947,
      "learning_rate": 5e-05,
      "loss": 2.4902,
      "step": 3682
    },
    {
      "epoch": 0.45734508878678753,
      "grad_norm": 0.2736489474773407,
      "learning_rate": 5e-05,
      "loss": 1.9327,
      "step": 3683
    },
    {
      "epoch": 0.45746926611200794,
      "grad_norm": 0.24661853909492493,
      "learning_rate": 5e-05,
      "loss": 1.9474,
      "step": 3684
    },
    {
      "epoch": 0.45759344343722835,
      "grad_norm": 0.2539280652999878,
      "learning_rate": 5e-05,
      "loss": 1.7299,
      "step": 3685
    },
    {
      "epoch": 0.45771762076244876,
      "grad_norm": 0.3460065424442291,
      "learning_rate": 5e-05,
      "loss": 2.5973,
      "step": 3686
    },
    {
      "epoch": 0.45784179808766917,
      "grad_norm": 0.24186161160469055,
      "learning_rate": 5e-05,
      "loss": 2.0177,
      "step": 3687
    },
    {
      "epoch": 0.4579659754128896,
      "grad_norm": 0.2821299135684967,
      "learning_rate": 5e-05,
      "loss": 1.7887,
      "step": 3688
    },
    {
      "epoch": 0.45809015273811005,
      "grad_norm": 0.2463959902524948,
      "learning_rate": 5e-05,
      "loss": 1.8642,
      "step": 3689
    },
    {
      "epoch": 0.45821433006333046,
      "grad_norm": 0.2415582686662674,
      "learning_rate": 5e-05,
      "loss": 1.7125,
      "step": 3690
    },
    {
      "epoch": 0.45833850738855086,
      "grad_norm": 0.24925467371940613,
      "learning_rate": 5e-05,
      "loss": 2.0802,
      "step": 3691
    },
    {
      "epoch": 0.4584626847137713,
      "grad_norm": 0.284193754196167,
      "learning_rate": 5e-05,
      "loss": 2.1535,
      "step": 3692
    },
    {
      "epoch": 0.4585868620389917,
      "grad_norm": 0.5420135855674744,
      "learning_rate": 5e-05,
      "loss": 3.2934,
      "step": 3693
    },
    {
      "epoch": 0.4587110393642121,
      "grad_norm": 0.2871832549571991,
      "learning_rate": 5e-05,
      "loss": 2.0187,
      "step": 3694
    },
    {
      "epoch": 0.4588352166894325,
      "grad_norm": 0.28680795431137085,
      "learning_rate": 5e-05,
      "loss": 2.315,
      "step": 3695
    },
    {
      "epoch": 0.4589593940146529,
      "grad_norm": 0.24108101427555084,
      "learning_rate": 5e-05,
      "loss": 1.6863,
      "step": 3696
    },
    {
      "epoch": 0.4590835713398733,
      "grad_norm": 0.22612926363945007,
      "learning_rate": 5e-05,
      "loss": 1.7276,
      "step": 3697
    },
    {
      "epoch": 0.45920774866509373,
      "grad_norm": 0.39188769459724426,
      "learning_rate": 5e-05,
      "loss": 1.5337,
      "step": 3698
    },
    {
      "epoch": 0.4593319259903142,
      "grad_norm": 0.2721399664878845,
      "learning_rate": 5e-05,
      "loss": 2.2841,
      "step": 3699
    },
    {
      "epoch": 0.4594561033155346,
      "grad_norm": 0.2642127573490143,
      "learning_rate": 5e-05,
      "loss": 2.0429,
      "step": 3700
    },
    {
      "epoch": 0.459580280640755,
      "grad_norm": 0.34524235129356384,
      "learning_rate": 5e-05,
      "loss": 2.5238,
      "step": 3701
    },
    {
      "epoch": 0.4597044579659754,
      "grad_norm": 0.23760610818862915,
      "learning_rate": 5e-05,
      "loss": 1.9163,
      "step": 3702
    },
    {
      "epoch": 0.45982863529119583,
      "grad_norm": 0.25335967540740967,
      "learning_rate": 5e-05,
      "loss": 1.7642,
      "step": 3703
    },
    {
      "epoch": 0.45995281261641624,
      "grad_norm": 0.2770371437072754,
      "learning_rate": 5e-05,
      "loss": 2.0273,
      "step": 3704
    },
    {
      "epoch": 0.46007698994163665,
      "grad_norm": 0.25973621010780334,
      "learning_rate": 5e-05,
      "loss": 1.823,
      "step": 3705
    },
    {
      "epoch": 0.46020116726685706,
      "grad_norm": 0.35052424669265747,
      "learning_rate": 5e-05,
      "loss": 3.1005,
      "step": 3706
    },
    {
      "epoch": 0.46032534459207747,
      "grad_norm": 0.25554993748664856,
      "learning_rate": 5e-05,
      "loss": 2.0084,
      "step": 3707
    },
    {
      "epoch": 0.4604495219172979,
      "grad_norm": 0.28023436665534973,
      "learning_rate": 5e-05,
      "loss": 2.4759,
      "step": 3708
    },
    {
      "epoch": 0.46057369924251834,
      "grad_norm": 0.3017418682575226,
      "learning_rate": 5e-05,
      "loss": 2.0529,
      "step": 3709
    },
    {
      "epoch": 0.46069787656773875,
      "grad_norm": 0.2600777745246887,
      "learning_rate": 5e-05,
      "loss": 1.7135,
      "step": 3710
    },
    {
      "epoch": 0.46082205389295916,
      "grad_norm": 0.27555832266807556,
      "learning_rate": 5e-05,
      "loss": 1.8721,
      "step": 3711
    },
    {
      "epoch": 0.46094623121817957,
      "grad_norm": 0.35168084502220154,
      "learning_rate": 5e-05,
      "loss": 2.5732,
      "step": 3712
    },
    {
      "epoch": 0.4610704085434,
      "grad_norm": 0.2278173416852951,
      "learning_rate": 5e-05,
      "loss": 1.6557,
      "step": 3713
    },
    {
      "epoch": 0.4611945858686204,
      "grad_norm": 0.25641727447509766,
      "learning_rate": 5e-05,
      "loss": 1.8153,
      "step": 3714
    },
    {
      "epoch": 0.4613187631938408,
      "grad_norm": 0.2860358655452728,
      "learning_rate": 5e-05,
      "loss": 2.7876,
      "step": 3715
    },
    {
      "epoch": 0.4614429405190612,
      "grad_norm": 0.2561151385307312,
      "learning_rate": 5e-05,
      "loss": 1.5212,
      "step": 3716
    },
    {
      "epoch": 0.4615671178442816,
      "grad_norm": 0.2888529300689697,
      "learning_rate": 5e-05,
      "loss": 2.2057,
      "step": 3717
    },
    {
      "epoch": 0.461691295169502,
      "grad_norm": 0.266047865152359,
      "learning_rate": 5e-05,
      "loss": 1.9522,
      "step": 3718
    },
    {
      "epoch": 0.4618154724947225,
      "grad_norm": 0.24097436666488647,
      "learning_rate": 5e-05,
      "loss": 1.8926,
      "step": 3719
    },
    {
      "epoch": 0.4619396498199429,
      "grad_norm": 0.28417128324508667,
      "learning_rate": 5e-05,
      "loss": 2.3777,
      "step": 3720
    },
    {
      "epoch": 0.4620638271451633,
      "grad_norm": 0.2749319076538086,
      "learning_rate": 5e-05,
      "loss": 2.5085,
      "step": 3721
    },
    {
      "epoch": 0.4621880044703837,
      "grad_norm": 0.38441285490989685,
      "learning_rate": 5e-05,
      "loss": 2.2511,
      "step": 3722
    },
    {
      "epoch": 0.4623121817956041,
      "grad_norm": 0.3329639434814453,
      "learning_rate": 5e-05,
      "loss": 2.1478,
      "step": 3723
    },
    {
      "epoch": 0.46243635912082454,
      "grad_norm": 0.45397889614105225,
      "learning_rate": 5e-05,
      "loss": 3.0332,
      "step": 3724
    },
    {
      "epoch": 0.46256053644604495,
      "grad_norm": 0.2769295871257782,
      "learning_rate": 5e-05,
      "loss": 2.6312,
      "step": 3725
    },
    {
      "epoch": 0.46268471377126535,
      "grad_norm": 0.2944956421852112,
      "learning_rate": 5e-05,
      "loss": 2.8046,
      "step": 3726
    },
    {
      "epoch": 0.46280889109648576,
      "grad_norm": 0.2855566740036011,
      "learning_rate": 5e-05,
      "loss": 2.7002,
      "step": 3727
    },
    {
      "epoch": 0.4629330684217062,
      "grad_norm": 0.29095032811164856,
      "learning_rate": 5e-05,
      "loss": 2.0279,
      "step": 3728
    },
    {
      "epoch": 0.46305724574692664,
      "grad_norm": 0.29610753059387207,
      "learning_rate": 5e-05,
      "loss": 2.0261,
      "step": 3729
    },
    {
      "epoch": 0.46318142307214705,
      "grad_norm": 0.2529889941215515,
      "learning_rate": 5e-05,
      "loss": 2.4328,
      "step": 3730
    },
    {
      "epoch": 0.46330560039736746,
      "grad_norm": 0.2528243958950043,
      "learning_rate": 5e-05,
      "loss": 1.705,
      "step": 3731
    },
    {
      "epoch": 0.46342977772258787,
      "grad_norm": 0.3699294924736023,
      "learning_rate": 5e-05,
      "loss": 1.9492,
      "step": 3732
    },
    {
      "epoch": 0.4635539550478083,
      "grad_norm": 0.23367568850517273,
      "learning_rate": 5e-05,
      "loss": 1.8059,
      "step": 3733
    },
    {
      "epoch": 0.4636781323730287,
      "grad_norm": 0.22545285522937775,
      "learning_rate": 5e-05,
      "loss": 1.5707,
      "step": 3734
    },
    {
      "epoch": 0.4638023096982491,
      "grad_norm": 0.3032660186290741,
      "learning_rate": 5e-05,
      "loss": 2.5091,
      "step": 3735
    },
    {
      "epoch": 0.4639264870234695,
      "grad_norm": 0.3749956786632538,
      "learning_rate": 5e-05,
      "loss": 2.9199,
      "step": 3736
    },
    {
      "epoch": 0.4640506643486899,
      "grad_norm": 0.26235827803611755,
      "learning_rate": 5e-05,
      "loss": 1.8312,
      "step": 3737
    },
    {
      "epoch": 0.4641748416739103,
      "grad_norm": 0.2523275315761566,
      "learning_rate": 5e-05,
      "loss": 1.8933,
      "step": 3738
    },
    {
      "epoch": 0.4642990189991308,
      "grad_norm": 0.24115239083766937,
      "learning_rate": 5e-05,
      "loss": 1.8593,
      "step": 3739
    },
    {
      "epoch": 0.4644231963243512,
      "grad_norm": 0.24133779108524323,
      "learning_rate": 5e-05,
      "loss": 1.9513,
      "step": 3740
    },
    {
      "epoch": 0.4645473736495716,
      "grad_norm": 0.25049519538879395,
      "learning_rate": 5e-05,
      "loss": 1.9626,
      "step": 3741
    },
    {
      "epoch": 0.464671550974792,
      "grad_norm": 0.32509729266166687,
      "learning_rate": 5e-05,
      "loss": 2.6754,
      "step": 3742
    },
    {
      "epoch": 0.4647957283000124,
      "grad_norm": 0.22493858635425568,
      "learning_rate": 5e-05,
      "loss": 1.3969,
      "step": 3743
    },
    {
      "epoch": 0.46491990562523283,
      "grad_norm": 0.32038432359695435,
      "learning_rate": 5e-05,
      "loss": 2.8724,
      "step": 3744
    },
    {
      "epoch": 0.46504408295045324,
      "grad_norm": 0.2756808400154114,
      "learning_rate": 5e-05,
      "loss": 1.8665,
      "step": 3745
    },
    {
      "epoch": 0.46516826027567365,
      "grad_norm": 0.22919133305549622,
      "learning_rate": 5e-05,
      "loss": 1.622,
      "step": 3746
    },
    {
      "epoch": 0.46529243760089406,
      "grad_norm": 0.2500326335430145,
      "learning_rate": 5e-05,
      "loss": 1.7911,
      "step": 3747
    },
    {
      "epoch": 0.46541661492611447,
      "grad_norm": 0.2787139415740967,
      "learning_rate": 5e-05,
      "loss": 2.3524,
      "step": 3748
    },
    {
      "epoch": 0.46554079225133493,
      "grad_norm": 0.3825012445449829,
      "learning_rate": 5e-05,
      "loss": 2.6704,
      "step": 3749
    },
    {
      "epoch": 0.46566496957655534,
      "grad_norm": 0.23502719402313232,
      "learning_rate": 5e-05,
      "loss": 1.6898,
      "step": 3750
    },
    {
      "epoch": 0.46578914690177575,
      "grad_norm": 0.29871129989624023,
      "learning_rate": 5e-05,
      "loss": 2.3541,
      "step": 3751
    },
    {
      "epoch": 0.46591332422699616,
      "grad_norm": 0.24409402906894684,
      "learning_rate": 5e-05,
      "loss": 1.6336,
      "step": 3752
    },
    {
      "epoch": 0.46603750155221657,
      "grad_norm": 0.31112971901893616,
      "learning_rate": 5e-05,
      "loss": 2.3301,
      "step": 3753
    },
    {
      "epoch": 0.466161678877437,
      "grad_norm": 0.46290358901023865,
      "learning_rate": 5e-05,
      "loss": 2.7657,
      "step": 3754
    },
    {
      "epoch": 0.4662858562026574,
      "grad_norm": 0.29431286454200745,
      "learning_rate": 5e-05,
      "loss": 2.1471,
      "step": 3755
    },
    {
      "epoch": 0.4664100335278778,
      "grad_norm": 0.26218414306640625,
      "learning_rate": 5e-05,
      "loss": 2.3939,
      "step": 3756
    },
    {
      "epoch": 0.4665342108530982,
      "grad_norm": 0.3483566641807556,
      "learning_rate": 5e-05,
      "loss": 2.2484,
      "step": 3757
    },
    {
      "epoch": 0.4666583881783186,
      "grad_norm": 0.24024175107479095,
      "learning_rate": 5e-05,
      "loss": 1.6138,
      "step": 3758
    },
    {
      "epoch": 0.466782565503539,
      "grad_norm": 0.2772156298160553,
      "learning_rate": 5e-05,
      "loss": 1.9293,
      "step": 3759
    },
    {
      "epoch": 0.4669067428287595,
      "grad_norm": 0.24673230946063995,
      "learning_rate": 5e-05,
      "loss": 1.6703,
      "step": 3760
    },
    {
      "epoch": 0.4670309201539799,
      "grad_norm": 0.24363486468791962,
      "learning_rate": 5e-05,
      "loss": 1.9547,
      "step": 3761
    },
    {
      "epoch": 0.4671550974792003,
      "grad_norm": 0.24472695589065552,
      "learning_rate": 5e-05,
      "loss": 1.8546,
      "step": 3762
    },
    {
      "epoch": 0.4672792748044207,
      "grad_norm": 0.2591949701309204,
      "learning_rate": 5e-05,
      "loss": 1.9849,
      "step": 3763
    },
    {
      "epoch": 0.46740345212964113,
      "grad_norm": 0.3027430772781372,
      "learning_rate": 5e-05,
      "loss": 2.3229,
      "step": 3764
    },
    {
      "epoch": 0.46752762945486154,
      "grad_norm": 0.2586989402770996,
      "learning_rate": 5e-05,
      "loss": 1.9121,
      "step": 3765
    },
    {
      "epoch": 0.46765180678008195,
      "grad_norm": 0.2581965923309326,
      "learning_rate": 5e-05,
      "loss": 2.0683,
      "step": 3766
    },
    {
      "epoch": 0.46777598410530236,
      "grad_norm": 0.32932889461517334,
      "learning_rate": 5e-05,
      "loss": 2.7389,
      "step": 3767
    },
    {
      "epoch": 0.46790016143052277,
      "grad_norm": 0.23542195558547974,
      "learning_rate": 5e-05,
      "loss": 1.4886,
      "step": 3768
    },
    {
      "epoch": 0.4680243387557432,
      "grad_norm": 0.2686495780944824,
      "learning_rate": 5e-05,
      "loss": 2.0493,
      "step": 3769
    },
    {
      "epoch": 0.46814851608096364,
      "grad_norm": 0.2341269552707672,
      "learning_rate": 5e-05,
      "loss": 1.7391,
      "step": 3770
    },
    {
      "epoch": 0.46827269340618405,
      "grad_norm": 0.24881036579608917,
      "learning_rate": 5e-05,
      "loss": 1.8926,
      "step": 3771
    },
    {
      "epoch": 0.46839687073140446,
      "grad_norm": 0.31741994619369507,
      "learning_rate": 5e-05,
      "loss": 2.5013,
      "step": 3772
    },
    {
      "epoch": 0.46852104805662487,
      "grad_norm": 0.23007549345493317,
      "learning_rate": 5e-05,
      "loss": 1.7307,
      "step": 3773
    },
    {
      "epoch": 0.4686452253818453,
      "grad_norm": 0.2672252357006073,
      "learning_rate": 5e-05,
      "loss": 2.5262,
      "step": 3774
    },
    {
      "epoch": 0.4687694027070657,
      "grad_norm": 0.26503461599349976,
      "learning_rate": 5e-05,
      "loss": 1.9904,
      "step": 3775
    },
    {
      "epoch": 0.4688935800322861,
      "grad_norm": 0.24616654217243195,
      "learning_rate": 5e-05,
      "loss": 1.7568,
      "step": 3776
    },
    {
      "epoch": 0.4690177573575065,
      "grad_norm": 0.24603234231472015,
      "learning_rate": 5e-05,
      "loss": 1.7584,
      "step": 3777
    },
    {
      "epoch": 0.4691419346827269,
      "grad_norm": 0.2972221076488495,
      "learning_rate": 5e-05,
      "loss": 3.0205,
      "step": 3778
    },
    {
      "epoch": 0.4692661120079473,
      "grad_norm": 0.281521737575531,
      "learning_rate": 5e-05,
      "loss": 2.445,
      "step": 3779
    },
    {
      "epoch": 0.4693902893331678,
      "grad_norm": 0.24010278284549713,
      "learning_rate": 5e-05,
      "loss": 1.7375,
      "step": 3780
    },
    {
      "epoch": 0.4695144666583882,
      "grad_norm": 0.2598876655101776,
      "learning_rate": 5e-05,
      "loss": 1.7829,
      "step": 3781
    },
    {
      "epoch": 0.4696386439836086,
      "grad_norm": 0.32101139426231384,
      "learning_rate": 5e-05,
      "loss": 2.3779,
      "step": 3782
    },
    {
      "epoch": 0.469762821308829,
      "grad_norm": 0.26489296555519104,
      "learning_rate": 5e-05,
      "loss": 1.9479,
      "step": 3783
    },
    {
      "epoch": 0.4698869986340494,
      "grad_norm": 0.24717245995998383,
      "learning_rate": 5e-05,
      "loss": 1.6296,
      "step": 3784
    },
    {
      "epoch": 0.47001117595926983,
      "grad_norm": 0.24983420968055725,
      "learning_rate": 5e-05,
      "loss": 1.5642,
      "step": 3785
    },
    {
      "epoch": 0.47013535328449024,
      "grad_norm": 0.25838613510131836,
      "learning_rate": 5e-05,
      "loss": 1.7181,
      "step": 3786
    },
    {
      "epoch": 0.47025953060971065,
      "grad_norm": 0.307891845703125,
      "learning_rate": 5e-05,
      "loss": 2.2243,
      "step": 3787
    },
    {
      "epoch": 0.47038370793493106,
      "grad_norm": 0.3163226246833801,
      "learning_rate": 5e-05,
      "loss": 2.7928,
      "step": 3788
    },
    {
      "epoch": 0.47050788526015147,
      "grad_norm": 0.3786616027355194,
      "learning_rate": 5e-05,
      "loss": 1.9988,
      "step": 3789
    },
    {
      "epoch": 0.47063206258537194,
      "grad_norm": 0.24822497367858887,
      "learning_rate": 5e-05,
      "loss": 1.8376,
      "step": 3790
    },
    {
      "epoch": 0.47075623991059234,
      "grad_norm": 0.2994300425052643,
      "learning_rate": 5e-05,
      "loss": 2.0891,
      "step": 3791
    },
    {
      "epoch": 0.47088041723581275,
      "grad_norm": 0.2565656304359436,
      "learning_rate": 5e-05,
      "loss": 1.932,
      "step": 3792
    },
    {
      "epoch": 0.47100459456103316,
      "grad_norm": 0.2400045543909073,
      "learning_rate": 5e-05,
      "loss": 1.905,
      "step": 3793
    },
    {
      "epoch": 0.4711287718862536,
      "grad_norm": 0.2752191424369812,
      "learning_rate": 5e-05,
      "loss": 2.3036,
      "step": 3794
    },
    {
      "epoch": 0.471252949211474,
      "grad_norm": 0.2367798238992691,
      "learning_rate": 5e-05,
      "loss": 1.7053,
      "step": 3795
    },
    {
      "epoch": 0.4713771265366944,
      "grad_norm": 0.27545031905174255,
      "learning_rate": 5e-05,
      "loss": 2.1721,
      "step": 3796
    },
    {
      "epoch": 0.4715013038619148,
      "grad_norm": 0.2445094734430313,
      "learning_rate": 5e-05,
      "loss": 1.8001,
      "step": 3797
    },
    {
      "epoch": 0.4716254811871352,
      "grad_norm": 0.27212825417518616,
      "learning_rate": 5e-05,
      "loss": 2.0131,
      "step": 3798
    },
    {
      "epoch": 0.4717496585123556,
      "grad_norm": 0.3546438217163086,
      "learning_rate": 5e-05,
      "loss": 2.7153,
      "step": 3799
    },
    {
      "epoch": 0.4718738358375761,
      "grad_norm": 0.26469165086746216,
      "learning_rate": 5e-05,
      "loss": 1.9978,
      "step": 3800
    },
    {
      "epoch": 0.4719980131627965,
      "grad_norm": 0.26541659235954285,
      "learning_rate": 5e-05,
      "loss": 1.9269,
      "step": 3801
    },
    {
      "epoch": 0.4721221904880169,
      "grad_norm": 0.25470834970474243,
      "learning_rate": 5e-05,
      "loss": 2.1003,
      "step": 3802
    },
    {
      "epoch": 0.4722463678132373,
      "grad_norm": 0.2495511770248413,
      "learning_rate": 5e-05,
      "loss": 2.165,
      "step": 3803
    },
    {
      "epoch": 0.4723705451384577,
      "grad_norm": 0.3341478109359741,
      "learning_rate": 5e-05,
      "loss": 2.4154,
      "step": 3804
    },
    {
      "epoch": 0.47249472246367813,
      "grad_norm": 0.2762279510498047,
      "learning_rate": 5e-05,
      "loss": 2.3299,
      "step": 3805
    },
    {
      "epoch": 0.47261889978889854,
      "grad_norm": 0.23955392837524414,
      "learning_rate": 5e-05,
      "loss": 1.5116,
      "step": 3806
    },
    {
      "epoch": 0.47274307711411895,
      "grad_norm": 0.27507612109184265,
      "learning_rate": 5e-05,
      "loss": 2.1639,
      "step": 3807
    },
    {
      "epoch": 0.47286725443933936,
      "grad_norm": 0.22767682373523712,
      "learning_rate": 5e-05,
      "loss": 1.6815,
      "step": 3808
    },
    {
      "epoch": 0.47299143176455977,
      "grad_norm": 0.25320327281951904,
      "learning_rate": 5e-05,
      "loss": 1.8617,
      "step": 3809
    },
    {
      "epoch": 0.47311560908978023,
      "grad_norm": 0.2898845076560974,
      "learning_rate": 5e-05,
      "loss": 2.6267,
      "step": 3810
    },
    {
      "epoch": 0.47323978641500064,
      "grad_norm": 0.22428782284259796,
      "learning_rate": 5e-05,
      "loss": 1.6021,
      "step": 3811
    },
    {
      "epoch": 0.47336396374022105,
      "grad_norm": 0.23096810281276703,
      "learning_rate": 5e-05,
      "loss": 1.6784,
      "step": 3812
    },
    {
      "epoch": 0.47348814106544146,
      "grad_norm": 0.25984397530555725,
      "learning_rate": 5e-05,
      "loss": 2.1357,
      "step": 3813
    },
    {
      "epoch": 0.47361231839066187,
      "grad_norm": 0.2621871829032898,
      "learning_rate": 5e-05,
      "loss": 2.0393,
      "step": 3814
    },
    {
      "epoch": 0.4737364957158823,
      "grad_norm": 0.23887096345424652,
      "learning_rate": 5e-05,
      "loss": 1.9216,
      "step": 3815
    },
    {
      "epoch": 0.4738606730411027,
      "grad_norm": 0.2649695873260498,
      "learning_rate": 5e-05,
      "loss": 2.1198,
      "step": 3816
    },
    {
      "epoch": 0.4739848503663231,
      "grad_norm": 0.23518216609954834,
      "learning_rate": 5e-05,
      "loss": 1.6495,
      "step": 3817
    },
    {
      "epoch": 0.4741090276915435,
      "grad_norm": 0.36547526717185974,
      "learning_rate": 5e-05,
      "loss": 2.8033,
      "step": 3818
    },
    {
      "epoch": 0.4742332050167639,
      "grad_norm": 0.3875651955604553,
      "learning_rate": 5e-05,
      "loss": 2.9284,
      "step": 3819
    },
    {
      "epoch": 0.4743573823419844,
      "grad_norm": 0.2534061074256897,
      "learning_rate": 5e-05,
      "loss": 1.9848,
      "step": 3820
    },
    {
      "epoch": 0.4744815596672048,
      "grad_norm": 0.26507750153541565,
      "learning_rate": 5e-05,
      "loss": 2.1233,
      "step": 3821
    },
    {
      "epoch": 0.4746057369924252,
      "grad_norm": 0.29006949067115784,
      "learning_rate": 5e-05,
      "loss": 2.0835,
      "step": 3822
    },
    {
      "epoch": 0.4747299143176456,
      "grad_norm": 0.2911592125892639,
      "learning_rate": 5e-05,
      "loss": 2.0187,
      "step": 3823
    },
    {
      "epoch": 0.474854091642866,
      "grad_norm": 0.2968220114707947,
      "learning_rate": 5e-05,
      "loss": 2.2836,
      "step": 3824
    },
    {
      "epoch": 0.4749782689680864,
      "grad_norm": 0.24679730832576752,
      "learning_rate": 5e-05,
      "loss": 1.7089,
      "step": 3825
    },
    {
      "epoch": 0.47510244629330683,
      "grad_norm": 0.2892230451107025,
      "learning_rate": 5e-05,
      "loss": 2.2021,
      "step": 3826
    },
    {
      "epoch": 0.47522662361852724,
      "grad_norm": 0.2447524517774582,
      "learning_rate": 5e-05,
      "loss": 1.8284,
      "step": 3827
    },
    {
      "epoch": 0.47535080094374765,
      "grad_norm": 0.28342849016189575,
      "learning_rate": 5e-05,
      "loss": 1.6486,
      "step": 3828
    },
    {
      "epoch": 0.47547497826896806,
      "grad_norm": 0.3388791084289551,
      "learning_rate": 5e-05,
      "loss": 2.2087,
      "step": 3829
    },
    {
      "epoch": 0.4755991555941885,
      "grad_norm": 0.2463005632162094,
      "learning_rate": 5e-05,
      "loss": 1.8514,
      "step": 3830
    },
    {
      "epoch": 0.47572333291940894,
      "grad_norm": 0.23328736424446106,
      "learning_rate": 5e-05,
      "loss": 1.6566,
      "step": 3831
    },
    {
      "epoch": 0.47584751024462935,
      "grad_norm": 0.6054593324661255,
      "learning_rate": 5e-05,
      "loss": 3.4001,
      "step": 3832
    },
    {
      "epoch": 0.47597168756984976,
      "grad_norm": 0.30469247698783875,
      "learning_rate": 5e-05,
      "loss": 2.2101,
      "step": 3833
    },
    {
      "epoch": 0.47609586489507016,
      "grad_norm": 0.23499421775341034,
      "learning_rate": 5e-05,
      "loss": 1.8245,
      "step": 3834
    },
    {
      "epoch": 0.4762200422202906,
      "grad_norm": 0.24627360701560974,
      "learning_rate": 5e-05,
      "loss": 1.746,
      "step": 3835
    },
    {
      "epoch": 0.476344219545511,
      "grad_norm": 0.254901260137558,
      "learning_rate": 5e-05,
      "loss": 1.9631,
      "step": 3836
    },
    {
      "epoch": 0.4764683968707314,
      "grad_norm": 0.24958916008472443,
      "learning_rate": 5e-05,
      "loss": 1.8511,
      "step": 3837
    },
    {
      "epoch": 0.4765925741959518,
      "grad_norm": 0.25346264243125916,
      "learning_rate": 5e-05,
      "loss": 1.7831,
      "step": 3838
    },
    {
      "epoch": 0.4767167515211722,
      "grad_norm": 0.2501986622810364,
      "learning_rate": 5e-05,
      "loss": 2.2045,
      "step": 3839
    },
    {
      "epoch": 0.4768409288463927,
      "grad_norm": 0.23319843411445618,
      "learning_rate": 5e-05,
      "loss": 1.5974,
      "step": 3840
    },
    {
      "epoch": 0.4769651061716131,
      "grad_norm": 0.3162629306316376,
      "learning_rate": 5e-05,
      "loss": 2.056,
      "step": 3841
    },
    {
      "epoch": 0.4770892834968335,
      "grad_norm": 0.24404089152812958,
      "learning_rate": 5e-05,
      "loss": 1.6963,
      "step": 3842
    },
    {
      "epoch": 0.4772134608220539,
      "grad_norm": 0.24072685837745667,
      "learning_rate": 5e-05,
      "loss": 1.9766,
      "step": 3843
    },
    {
      "epoch": 0.4773376381472743,
      "grad_norm": 0.2808510363101959,
      "learning_rate": 5e-05,
      "loss": 1.989,
      "step": 3844
    },
    {
      "epoch": 0.4774618154724947,
      "grad_norm": 0.24510209262371063,
      "learning_rate": 5e-05,
      "loss": 1.8321,
      "step": 3845
    },
    {
      "epoch": 0.47758599279771513,
      "grad_norm": 0.23880541324615479,
      "learning_rate": 5e-05,
      "loss": 1.5521,
      "step": 3846
    },
    {
      "epoch": 0.47771017012293554,
      "grad_norm": 0.2707190215587616,
      "learning_rate": 5e-05,
      "loss": 2.2021,
      "step": 3847
    },
    {
      "epoch": 0.47783434744815595,
      "grad_norm": 0.24554884433746338,
      "learning_rate": 5e-05,
      "loss": 1.7241,
      "step": 3848
    },
    {
      "epoch": 0.47795852477337636,
      "grad_norm": 0.2338775098323822,
      "learning_rate": 5e-05,
      "loss": 1.8223,
      "step": 3849
    },
    {
      "epoch": 0.4780827020985968,
      "grad_norm": 0.27805590629577637,
      "learning_rate": 5e-05,
      "loss": 2.1541,
      "step": 3850
    },
    {
      "epoch": 0.47820687942381723,
      "grad_norm": 0.24526168406009674,
      "learning_rate": 5e-05,
      "loss": 2.0317,
      "step": 3851
    },
    {
      "epoch": 0.47833105674903764,
      "grad_norm": 0.23409128189086914,
      "learning_rate": 5e-05,
      "loss": 1.8411,
      "step": 3852
    },
    {
      "epoch": 0.47845523407425805,
      "grad_norm": 0.2632734179496765,
      "learning_rate": 5e-05,
      "loss": 2.305,
      "step": 3853
    },
    {
      "epoch": 0.47857941139947846,
      "grad_norm": 0.34554019570350647,
      "learning_rate": 5e-05,
      "loss": 2.7506,
      "step": 3854
    },
    {
      "epoch": 0.47870358872469887,
      "grad_norm": 0.26898279786109924,
      "learning_rate": 5e-05,
      "loss": 2.0283,
      "step": 3855
    },
    {
      "epoch": 0.4788277660499193,
      "grad_norm": 0.4894627630710602,
      "learning_rate": 5e-05,
      "loss": 3.9556,
      "step": 3856
    },
    {
      "epoch": 0.4789519433751397,
      "grad_norm": 0.25828030705451965,
      "learning_rate": 5e-05,
      "loss": 1.7904,
      "step": 3857
    },
    {
      "epoch": 0.4790761207003601,
      "grad_norm": 0.2767735719680786,
      "learning_rate": 5e-05,
      "loss": 2.4639,
      "step": 3858
    },
    {
      "epoch": 0.4792002980255805,
      "grad_norm": 0.2716367244720459,
      "learning_rate": 5e-05,
      "loss": 1.9747,
      "step": 3859
    },
    {
      "epoch": 0.47932447535080097,
      "grad_norm": 0.2745836079120636,
      "learning_rate": 5e-05,
      "loss": 2.0554,
      "step": 3860
    },
    {
      "epoch": 0.4794486526760214,
      "grad_norm": 0.29028451442718506,
      "learning_rate": 5e-05,
      "loss": 2.1883,
      "step": 3861
    },
    {
      "epoch": 0.4795728300012418,
      "grad_norm": 0.3114234209060669,
      "learning_rate": 5e-05,
      "loss": 2.3263,
      "step": 3862
    },
    {
      "epoch": 0.4796970073264622,
      "grad_norm": 0.2626296281814575,
      "learning_rate": 5e-05,
      "loss": 1.6638,
      "step": 3863
    },
    {
      "epoch": 0.4798211846516826,
      "grad_norm": 0.3213566839694977,
      "learning_rate": 5e-05,
      "loss": 2.117,
      "step": 3864
    },
    {
      "epoch": 0.479945361976903,
      "grad_norm": 0.3131120204925537,
      "learning_rate": 5e-05,
      "loss": 2.0017,
      "step": 3865
    },
    {
      "epoch": 0.4800695393021234,
      "grad_norm": 0.30492836236953735,
      "learning_rate": 5e-05,
      "loss": 2.4067,
      "step": 3866
    },
    {
      "epoch": 0.48019371662734384,
      "grad_norm": 0.26359227299690247,
      "learning_rate": 5e-05,
      "loss": 1.727,
      "step": 3867
    },
    {
      "epoch": 0.48031789395256425,
      "grad_norm": 0.24697642028331757,
      "learning_rate": 5e-05,
      "loss": 1.8881,
      "step": 3868
    },
    {
      "epoch": 0.48044207127778465,
      "grad_norm": 0.247593492269516,
      "learning_rate": 5e-05,
      "loss": 1.9391,
      "step": 3869
    },
    {
      "epoch": 0.48056624860300506,
      "grad_norm": 0.27301526069641113,
      "learning_rate": 5e-05,
      "loss": 2.0986,
      "step": 3870
    },
    {
      "epoch": 0.48069042592822553,
      "grad_norm": 0.2713072896003723,
      "learning_rate": 5e-05,
      "loss": 1.9867,
      "step": 3871
    },
    {
      "epoch": 0.48081460325344594,
      "grad_norm": 0.2710086703300476,
      "learning_rate": 5e-05,
      "loss": 1.9851,
      "step": 3872
    },
    {
      "epoch": 0.48093878057866635,
      "grad_norm": 0.2588740885257721,
      "learning_rate": 5e-05,
      "loss": 1.8256,
      "step": 3873
    },
    {
      "epoch": 0.48106295790388676,
      "grad_norm": 0.3533439040184021,
      "learning_rate": 5e-05,
      "loss": 2.4111,
      "step": 3874
    },
    {
      "epoch": 0.48118713522910717,
      "grad_norm": 0.24429315328598022,
      "learning_rate": 5e-05,
      "loss": 1.8134,
      "step": 3875
    },
    {
      "epoch": 0.4813113125543276,
      "grad_norm": 0.25022098422050476,
      "learning_rate": 5e-05,
      "loss": 1.891,
      "step": 3876
    },
    {
      "epoch": 0.481435489879548,
      "grad_norm": 0.32831573486328125,
      "learning_rate": 5e-05,
      "loss": 2.787,
      "step": 3877
    },
    {
      "epoch": 0.4815596672047684,
      "grad_norm": 0.2303081750869751,
      "learning_rate": 5e-05,
      "loss": 1.9263,
      "step": 3878
    },
    {
      "epoch": 0.4816838445299888,
      "grad_norm": 0.27254289388656616,
      "learning_rate": 5e-05,
      "loss": 1.9381,
      "step": 3879
    },
    {
      "epoch": 0.4818080218552092,
      "grad_norm": 0.2308296263217926,
      "learning_rate": 5e-05,
      "loss": 1.6974,
      "step": 3880
    },
    {
      "epoch": 0.4819321991804297,
      "grad_norm": 0.2550886273384094,
      "learning_rate": 5e-05,
      "loss": 2.1294,
      "step": 3881
    },
    {
      "epoch": 0.4820563765056501,
      "grad_norm": 0.2510768473148346,
      "learning_rate": 5e-05,
      "loss": 1.8386,
      "step": 3882
    },
    {
      "epoch": 0.4821805538308705,
      "grad_norm": 0.24736586213111877,
      "learning_rate": 5e-05,
      "loss": 1.7903,
      "step": 3883
    },
    {
      "epoch": 0.4823047311560909,
      "grad_norm": 0.25087112188339233,
      "learning_rate": 5e-05,
      "loss": 1.852,
      "step": 3884
    },
    {
      "epoch": 0.4824289084813113,
      "grad_norm": 0.258667528629303,
      "learning_rate": 5e-05,
      "loss": 2.1423,
      "step": 3885
    },
    {
      "epoch": 0.4825530858065317,
      "grad_norm": 0.24961206316947937,
      "learning_rate": 5e-05,
      "loss": 2.0568,
      "step": 3886
    },
    {
      "epoch": 0.48267726313175213,
      "grad_norm": 0.24150574207305908,
      "learning_rate": 5e-05,
      "loss": 1.8317,
      "step": 3887
    },
    {
      "epoch": 0.48280144045697254,
      "grad_norm": 0.2294166535139084,
      "learning_rate": 5e-05,
      "loss": 1.7282,
      "step": 3888
    },
    {
      "epoch": 0.48292561778219295,
      "grad_norm": 0.33131325244903564,
      "learning_rate": 5e-05,
      "loss": 2.9518,
      "step": 3889
    },
    {
      "epoch": 0.48304979510741336,
      "grad_norm": 0.31336402893066406,
      "learning_rate": 5e-05,
      "loss": 2.7053,
      "step": 3890
    },
    {
      "epoch": 0.4831739724326338,
      "grad_norm": 0.5472186803817749,
      "learning_rate": 5e-05,
      "loss": 3.4151,
      "step": 3891
    },
    {
      "epoch": 0.48329814975785423,
      "grad_norm": 0.29547688364982605,
      "learning_rate": 5e-05,
      "loss": 2.1959,
      "step": 3892
    },
    {
      "epoch": 0.48342232708307464,
      "grad_norm": 0.22589442133903503,
      "learning_rate": 5e-05,
      "loss": 1.5488,
      "step": 3893
    },
    {
      "epoch": 0.48354650440829505,
      "grad_norm": 0.30734023451805115,
      "learning_rate": 5e-05,
      "loss": 2.1366,
      "step": 3894
    },
    {
      "epoch": 0.48367068173351546,
      "grad_norm": 0.265781968832016,
      "learning_rate": 5e-05,
      "loss": 1.6933,
      "step": 3895
    },
    {
      "epoch": 0.48379485905873587,
      "grad_norm": 0.2778889834880829,
      "learning_rate": 5e-05,
      "loss": 2.3719,
      "step": 3896
    },
    {
      "epoch": 0.4839190363839563,
      "grad_norm": 0.2705020606517792,
      "learning_rate": 5e-05,
      "loss": 2.1464,
      "step": 3897
    },
    {
      "epoch": 0.4840432137091767,
      "grad_norm": 0.234904944896698,
      "learning_rate": 5e-05,
      "loss": 1.9484,
      "step": 3898
    },
    {
      "epoch": 0.4841673910343971,
      "grad_norm": 0.24568559229373932,
      "learning_rate": 5e-05,
      "loss": 1.8188,
      "step": 3899
    },
    {
      "epoch": 0.4842915683596175,
      "grad_norm": 0.26236119866371155,
      "learning_rate": 5e-05,
      "loss": 1.7656,
      "step": 3900
    },
    {
      "epoch": 0.484415745684838,
      "grad_norm": 0.25771012902259827,
      "learning_rate": 5e-05,
      "loss": 2.3894,
      "step": 3901
    },
    {
      "epoch": 0.4845399230100584,
      "grad_norm": 0.25078269839286804,
      "learning_rate": 5e-05,
      "loss": 1.9254,
      "step": 3902
    },
    {
      "epoch": 0.4846641003352788,
      "grad_norm": 0.31102854013442993,
      "learning_rate": 5e-05,
      "loss": 2.2158,
      "step": 3903
    },
    {
      "epoch": 0.4847882776604992,
      "grad_norm": 0.23618362843990326,
      "learning_rate": 5e-05,
      "loss": 1.8634,
      "step": 3904
    },
    {
      "epoch": 0.4849124549857196,
      "grad_norm": 0.23569625616073608,
      "learning_rate": 5e-05,
      "loss": 1.6641,
      "step": 3905
    },
    {
      "epoch": 0.48503663231094,
      "grad_norm": 0.3056221604347229,
      "learning_rate": 5e-05,
      "loss": 2.3442,
      "step": 3906
    },
    {
      "epoch": 0.48516080963616043,
      "grad_norm": 0.35795995593070984,
      "learning_rate": 5e-05,
      "loss": 2.6869,
      "step": 3907
    },
    {
      "epoch": 0.48528498696138084,
      "grad_norm": 0.2756887674331665,
      "learning_rate": 5e-05,
      "loss": 1.8886,
      "step": 3908
    },
    {
      "epoch": 0.48540916428660125,
      "grad_norm": 0.3128836750984192,
      "learning_rate": 5e-05,
      "loss": 2.661,
      "step": 3909
    },
    {
      "epoch": 0.48553334161182166,
      "grad_norm": 0.3112477660179138,
      "learning_rate": 5e-05,
      "loss": 2.0602,
      "step": 3910
    },
    {
      "epoch": 0.4856575189370421,
      "grad_norm": 0.24958962202072144,
      "learning_rate": 5e-05,
      "loss": 1.9602,
      "step": 3911
    },
    {
      "epoch": 0.48578169626226253,
      "grad_norm": 0.2798370122909546,
      "learning_rate": 5e-05,
      "loss": 2.1783,
      "step": 3912
    },
    {
      "epoch": 0.48590587358748294,
      "grad_norm": 0.26496008038520813,
      "learning_rate": 5e-05,
      "loss": 2.2958,
      "step": 3913
    },
    {
      "epoch": 0.48603005091270335,
      "grad_norm": 0.5013224482536316,
      "learning_rate": 5e-05,
      "loss": 3.5574,
      "step": 3914
    },
    {
      "epoch": 0.48615422823792376,
      "grad_norm": 0.2615935206413269,
      "learning_rate": 5e-05,
      "loss": 2.1525,
      "step": 3915
    },
    {
      "epoch": 0.48627840556314417,
      "grad_norm": 0.23061394691467285,
      "learning_rate": 5e-05,
      "loss": 1.767,
      "step": 3916
    },
    {
      "epoch": 0.4864025828883646,
      "grad_norm": 0.2588561177253723,
      "learning_rate": 5e-05,
      "loss": 1.9703,
      "step": 3917
    },
    {
      "epoch": 0.486526760213585,
      "grad_norm": 0.2811073958873749,
      "learning_rate": 5e-05,
      "loss": 2.8899,
      "step": 3918
    },
    {
      "epoch": 0.4866509375388054,
      "grad_norm": 0.3036738634109497,
      "learning_rate": 5e-05,
      "loss": 2.1682,
      "step": 3919
    },
    {
      "epoch": 0.4867751148640258,
      "grad_norm": 0.2848130464553833,
      "learning_rate": 5e-05,
      "loss": 2.2619,
      "step": 3920
    },
    {
      "epoch": 0.48689929218924627,
      "grad_norm": 0.24663934111595154,
      "learning_rate": 5e-05,
      "loss": 2.0169,
      "step": 3921
    },
    {
      "epoch": 0.4870234695144667,
      "grad_norm": 0.24509768187999725,
      "learning_rate": 5e-05,
      "loss": 1.6234,
      "step": 3922
    },
    {
      "epoch": 0.4871476468396871,
      "grad_norm": 0.3036537170410156,
      "learning_rate": 5e-05,
      "loss": 2.3312,
      "step": 3923
    },
    {
      "epoch": 0.4872718241649075,
      "grad_norm": 0.2622587978839874,
      "learning_rate": 5e-05,
      "loss": 1.8345,
      "step": 3924
    },
    {
      "epoch": 0.4873960014901279,
      "grad_norm": 0.33658429980278015,
      "learning_rate": 5e-05,
      "loss": 2.5304,
      "step": 3925
    },
    {
      "epoch": 0.4875201788153483,
      "grad_norm": 0.2482730597257614,
      "learning_rate": 5e-05,
      "loss": 1.872,
      "step": 3926
    },
    {
      "epoch": 0.4876443561405687,
      "grad_norm": 0.30108222365379333,
      "learning_rate": 5e-05,
      "loss": 2.4997,
      "step": 3927
    },
    {
      "epoch": 0.48776853346578913,
      "grad_norm": 0.2725526690483093,
      "learning_rate": 5e-05,
      "loss": 2.6676,
      "step": 3928
    },
    {
      "epoch": 0.48789271079100954,
      "grad_norm": 0.2819851040840149,
      "learning_rate": 5e-05,
      "loss": 1.7515,
      "step": 3929
    },
    {
      "epoch": 0.48801688811622995,
      "grad_norm": 0.23388932645320892,
      "learning_rate": 5e-05,
      "loss": 1.644,
      "step": 3930
    },
    {
      "epoch": 0.4881410654414504,
      "grad_norm": 0.23615571856498718,
      "learning_rate": 5e-05,
      "loss": 1.9233,
      "step": 3931
    },
    {
      "epoch": 0.4882652427666708,
      "grad_norm": 0.28926417231559753,
      "learning_rate": 5e-05,
      "loss": 2.016,
      "step": 3932
    },
    {
      "epoch": 0.48838942009189124,
      "grad_norm": 0.2590161859989166,
      "learning_rate": 5e-05,
      "loss": 2.1942,
      "step": 3933
    },
    {
      "epoch": 0.48851359741711164,
      "grad_norm": 0.2569301724433899,
      "learning_rate": 5e-05,
      "loss": 1.9491,
      "step": 3934
    },
    {
      "epoch": 0.48863777474233205,
      "grad_norm": 0.24590009450912476,
      "learning_rate": 5e-05,
      "loss": 1.6665,
      "step": 3935
    },
    {
      "epoch": 0.48876195206755246,
      "grad_norm": 0.2507183849811554,
      "learning_rate": 5e-05,
      "loss": 1.9813,
      "step": 3936
    },
    {
      "epoch": 0.4888861293927729,
      "grad_norm": 0.2806329131126404,
      "learning_rate": 5e-05,
      "loss": 2.1556,
      "step": 3937
    },
    {
      "epoch": 0.4890103067179933,
      "grad_norm": 0.2593044340610504,
      "learning_rate": 5e-05,
      "loss": 2.1487,
      "step": 3938
    },
    {
      "epoch": 0.4891344840432137,
      "grad_norm": 0.2982097566127777,
      "learning_rate": 5e-05,
      "loss": 3.0302,
      "step": 3939
    },
    {
      "epoch": 0.4892586613684341,
      "grad_norm": 0.29035472869873047,
      "learning_rate": 5e-05,
      "loss": 2.4651,
      "step": 3940
    },
    {
      "epoch": 0.48938283869365456,
      "grad_norm": 0.39894893765449524,
      "learning_rate": 5e-05,
      "loss": 1.6706,
      "step": 3941
    },
    {
      "epoch": 0.489507016018875,
      "grad_norm": 0.24433690309524536,
      "learning_rate": 5e-05,
      "loss": 2.0285,
      "step": 3942
    },
    {
      "epoch": 0.4896311933440954,
      "grad_norm": 0.2709929943084717,
      "learning_rate": 5e-05,
      "loss": 3.0003,
      "step": 3943
    },
    {
      "epoch": 0.4897553706693158,
      "grad_norm": 0.24825885891914368,
      "learning_rate": 5e-05,
      "loss": 1.7201,
      "step": 3944
    },
    {
      "epoch": 0.4898795479945362,
      "grad_norm": 0.28034350275993347,
      "learning_rate": 5e-05,
      "loss": 2.0749,
      "step": 3945
    },
    {
      "epoch": 0.4900037253197566,
      "grad_norm": 0.2617465555667877,
      "learning_rate": 5e-05,
      "loss": 1.8295,
      "step": 3946
    },
    {
      "epoch": 0.490127902644977,
      "grad_norm": 0.48099711537361145,
      "learning_rate": 5e-05,
      "loss": 2.5138,
      "step": 3947
    },
    {
      "epoch": 0.49025207997019743,
      "grad_norm": 0.24878370761871338,
      "learning_rate": 5e-05,
      "loss": 1.6884,
      "step": 3948
    },
    {
      "epoch": 0.49037625729541784,
      "grad_norm": 0.28135889768600464,
      "learning_rate": 5e-05,
      "loss": 2.2166,
      "step": 3949
    },
    {
      "epoch": 0.49050043462063825,
      "grad_norm": 0.2540428638458252,
      "learning_rate": 5e-05,
      "loss": 2.0954,
      "step": 3950
    },
    {
      "epoch": 0.4906246119458587,
      "grad_norm": 0.2989576458930969,
      "learning_rate": 5e-05,
      "loss": 2.9127,
      "step": 3951
    },
    {
      "epoch": 0.4907487892710791,
      "grad_norm": 0.35138800740242004,
      "learning_rate": 5e-05,
      "loss": 2.1535,
      "step": 3952
    },
    {
      "epoch": 0.49087296659629953,
      "grad_norm": 0.2919287085533142,
      "learning_rate": 5e-05,
      "loss": 2.4477,
      "step": 3953
    },
    {
      "epoch": 0.49099714392151994,
      "grad_norm": 0.28278595209121704,
      "learning_rate": 5e-05,
      "loss": 2.2832,
      "step": 3954
    },
    {
      "epoch": 0.49112132124674035,
      "grad_norm": 0.24463866651058197,
      "learning_rate": 5e-05,
      "loss": 2.0512,
      "step": 3955
    },
    {
      "epoch": 0.49124549857196076,
      "grad_norm": 0.25053003430366516,
      "learning_rate": 5e-05,
      "loss": 2.3639,
      "step": 3956
    },
    {
      "epoch": 0.49136967589718117,
      "grad_norm": 0.24183261394500732,
      "learning_rate": 5e-05,
      "loss": 1.7411,
      "step": 3957
    },
    {
      "epoch": 0.4914938532224016,
      "grad_norm": 0.2536546587944031,
      "learning_rate": 5e-05,
      "loss": 2.0555,
      "step": 3958
    },
    {
      "epoch": 0.491618030547622,
      "grad_norm": 0.2728576362133026,
      "learning_rate": 5e-05,
      "loss": 2.2935,
      "step": 3959
    },
    {
      "epoch": 0.4917422078728424,
      "grad_norm": 0.35700732469558716,
      "learning_rate": 5e-05,
      "loss": 2.4759,
      "step": 3960
    },
    {
      "epoch": 0.49186638519806286,
      "grad_norm": 0.251714825630188,
      "learning_rate": 5e-05,
      "loss": 1.5906,
      "step": 3961
    },
    {
      "epoch": 0.49199056252328327,
      "grad_norm": 0.27333173155784607,
      "learning_rate": 5e-05,
      "loss": 2.0215,
      "step": 3962
    },
    {
      "epoch": 0.4921147398485037,
      "grad_norm": 0.26484155654907227,
      "learning_rate": 5e-05,
      "loss": 2.2396,
      "step": 3963
    },
    {
      "epoch": 0.4922389171737241,
      "grad_norm": 0.2907828688621521,
      "learning_rate": 5e-05,
      "loss": 1.8995,
      "step": 3964
    },
    {
      "epoch": 0.4923630944989445,
      "grad_norm": 0.24295277893543243,
      "learning_rate": 5e-05,
      "loss": 1.9824,
      "step": 3965
    },
    {
      "epoch": 0.4924872718241649,
      "grad_norm": 0.24281099438667297,
      "learning_rate": 5e-05,
      "loss": 1.8336,
      "step": 3966
    },
    {
      "epoch": 0.4926114491493853,
      "grad_norm": 0.28015756607055664,
      "learning_rate": 5e-05,
      "loss": 2.0993,
      "step": 3967
    },
    {
      "epoch": 0.4927356264746057,
      "grad_norm": 0.24537059664726257,
      "learning_rate": 5e-05,
      "loss": 1.9016,
      "step": 3968
    },
    {
      "epoch": 0.49285980379982613,
      "grad_norm": 0.28075307607650757,
      "learning_rate": 5e-05,
      "loss": 2.1867,
      "step": 3969
    },
    {
      "epoch": 0.49298398112504654,
      "grad_norm": 0.23990865051746368,
      "learning_rate": 5e-05,
      "loss": 1.8074,
      "step": 3970
    },
    {
      "epoch": 0.493108158450267,
      "grad_norm": 0.2412898689508438,
      "learning_rate": 5e-05,
      "loss": 1.8406,
      "step": 3971
    },
    {
      "epoch": 0.4932323357754874,
      "grad_norm": 0.2641030550003052,
      "learning_rate": 5e-05,
      "loss": 2.1272,
      "step": 3972
    },
    {
      "epoch": 0.4933565131007078,
      "grad_norm": 0.29628852009773254,
      "learning_rate": 5e-05,
      "loss": 2.1693,
      "step": 3973
    },
    {
      "epoch": 0.49348069042592824,
      "grad_norm": 0.23926807940006256,
      "learning_rate": 5e-05,
      "loss": 1.5727,
      "step": 3974
    },
    {
      "epoch": 0.49360486775114865,
      "grad_norm": 0.25644993782043457,
      "learning_rate": 5e-05,
      "loss": 2.301,
      "step": 3975
    },
    {
      "epoch": 0.49372904507636906,
      "grad_norm": 0.23636257648468018,
      "learning_rate": 5e-05,
      "loss": 1.8857,
      "step": 3976
    },
    {
      "epoch": 0.49385322240158946,
      "grad_norm": 0.24126331508159637,
      "learning_rate": 5e-05,
      "loss": 1.8049,
      "step": 3977
    },
    {
      "epoch": 0.4939773997268099,
      "grad_norm": 0.2942225933074951,
      "learning_rate": 5e-05,
      "loss": 2.2518,
      "step": 3978
    },
    {
      "epoch": 0.4941015770520303,
      "grad_norm": 0.23714369535446167,
      "learning_rate": 5e-05,
      "loss": 1.5358,
      "step": 3979
    },
    {
      "epoch": 0.4942257543772507,
      "grad_norm": 0.25190216302871704,
      "learning_rate": 5e-05,
      "loss": 1.9641,
      "step": 3980
    },
    {
      "epoch": 0.4943499317024711,
      "grad_norm": 0.2622401714324951,
      "learning_rate": 5e-05,
      "loss": 1.9031,
      "step": 3981
    },
    {
      "epoch": 0.49447410902769157,
      "grad_norm": 0.23984573781490326,
      "learning_rate": 5e-05,
      "loss": 1.8997,
      "step": 3982
    },
    {
      "epoch": 0.494598286352912,
      "grad_norm": 0.2397886961698532,
      "learning_rate": 5e-05,
      "loss": 1.8365,
      "step": 3983
    },
    {
      "epoch": 0.4947224636781324,
      "grad_norm": 0.23667512834072113,
      "learning_rate": 5e-05,
      "loss": 1.8198,
      "step": 3984
    },
    {
      "epoch": 0.4948466410033528,
      "grad_norm": 0.2407924085855484,
      "learning_rate": 5e-05,
      "loss": 1.8705,
      "step": 3985
    },
    {
      "epoch": 0.4949708183285732,
      "grad_norm": 0.31896474957466125,
      "learning_rate": 5e-05,
      "loss": 2.3651,
      "step": 3986
    },
    {
      "epoch": 0.4950949956537936,
      "grad_norm": 0.2520856261253357,
      "learning_rate": 5e-05,
      "loss": 1.7471,
      "step": 3987
    },
    {
      "epoch": 0.495219172979014,
      "grad_norm": 0.29035767912864685,
      "learning_rate": 5e-05,
      "loss": 2.7617,
      "step": 3988
    },
    {
      "epoch": 0.49534335030423443,
      "grad_norm": 0.2656653821468353,
      "learning_rate": 5e-05,
      "loss": 2.0585,
      "step": 3989
    },
    {
      "epoch": 0.49546752762945484,
      "grad_norm": 0.2466040849685669,
      "learning_rate": 5e-05,
      "loss": 1.9326,
      "step": 3990
    },
    {
      "epoch": 0.49559170495467525,
      "grad_norm": 0.24749986827373505,
      "learning_rate": 5e-05,
      "loss": 1.8203,
      "step": 3991
    },
    {
      "epoch": 0.4957158822798957,
      "grad_norm": 0.2577872574329376,
      "learning_rate": 5e-05,
      "loss": 1.846,
      "step": 3992
    },
    {
      "epoch": 0.4958400596051161,
      "grad_norm": 0.2301517277956009,
      "learning_rate": 5e-05,
      "loss": 1.6691,
      "step": 3993
    },
    {
      "epoch": 0.49596423693033653,
      "grad_norm": 0.23217348754405975,
      "learning_rate": 5e-05,
      "loss": 1.7943,
      "step": 3994
    },
    {
      "epoch": 0.49608841425555694,
      "grad_norm": 0.24767589569091797,
      "learning_rate": 5e-05,
      "loss": 2.0368,
      "step": 3995
    },
    {
      "epoch": 0.49621259158077735,
      "grad_norm": 0.37302926182746887,
      "learning_rate": 5e-05,
      "loss": 2.9305,
      "step": 3996
    },
    {
      "epoch": 0.49633676890599776,
      "grad_norm": 0.2919287085533142,
      "learning_rate": 5e-05,
      "loss": 2.0212,
      "step": 3997
    },
    {
      "epoch": 0.49646094623121817,
      "grad_norm": 0.2996363341808319,
      "learning_rate": 5e-05,
      "loss": 2.9136,
      "step": 3998
    },
    {
      "epoch": 0.4965851235564386,
      "grad_norm": 0.24742484092712402,
      "learning_rate": 5e-05,
      "loss": 1.7882,
      "step": 3999
    },
    {
      "epoch": 0.496709300881659,
      "grad_norm": 0.24979206919670105,
      "learning_rate": 5e-05,
      "loss": 1.8959,
      "step": 4000
    },
    {
      "epoch": 0.00013462574044157243,
      "grad_norm": 0.33965691924095154,
      "learning_rate": 5e-05,
      "loss": 2.7434,
      "step": 4001
    },
    {
      "epoch": 0.00026925148088314486,
      "grad_norm": 0.27927207946777344,
      "learning_rate": 5e-05,
      "loss": 2.4107,
      "step": 4002
    },
    {
      "epoch": 0.0004038772213247173,
      "grad_norm": 0.23268257081508636,
      "learning_rate": 5e-05,
      "loss": 1.6062,
      "step": 4003
    },
    {
      "epoch": 0.0005385029617662897,
      "grad_norm": 0.2590080201625824,
      "learning_rate": 5e-05,
      "loss": 1.9047,
      "step": 4004
    },
    {
      "epoch": 0.0006731287022078621,
      "grad_norm": 0.2901694178581238,
      "learning_rate": 5e-05,
      "loss": 2.0342,
      "step": 4005
    },
    {
      "epoch": 0.0008077544426494346,
      "grad_norm": 0.2752041518688202,
      "learning_rate": 5e-05,
      "loss": 1.9797,
      "step": 4006
    },
    {
      "epoch": 0.000942380183091007,
      "grad_norm": 0.25185999274253845,
      "learning_rate": 5e-05,
      "loss": 1.7778,
      "step": 4007
    },
    {
      "epoch": 0.0010770059235325794,
      "grad_norm": 0.2510417401790619,
      "learning_rate": 5e-05,
      "loss": 1.5769,
      "step": 4008
    },
    {
      "epoch": 0.0012116316639741518,
      "grad_norm": 0.2542189359664917,
      "learning_rate": 5e-05,
      "loss": 2.0082,
      "step": 4009
    },
    {
      "epoch": 0.0013462574044157242,
      "grad_norm": 0.26804888248443604,
      "learning_rate": 5e-05,
      "loss": 2.102,
      "step": 4010
    },
    {
      "epoch": 0.0014808831448572966,
      "grad_norm": 0.2702488303184509,
      "learning_rate": 5e-05,
      "loss": 2.1301,
      "step": 4011
    },
    {
      "epoch": 0.0016155088852988692,
      "grad_norm": 0.2665930390357971,
      "learning_rate": 5e-05,
      "loss": 2.0547,
      "step": 4012
    },
    {
      "epoch": 0.0017501346257404416,
      "grad_norm": 0.24440759420394897,
      "learning_rate": 5e-05,
      "loss": 1.8336,
      "step": 4013
    },
    {
      "epoch": 0.001884760366182014,
      "grad_norm": 0.9471265077590942,
      "learning_rate": 5e-05,
      "loss": 2.6689,
      "step": 4014
    },
    {
      "epoch": 0.0020193861066235864,
      "grad_norm": 0.25121182203292847,
      "learning_rate": 5e-05,
      "loss": 1.9966,
      "step": 4015
    },
    {
      "epoch": 0.002154011847065159,
      "grad_norm": 0.2611055076122284,
      "learning_rate": 5e-05,
      "loss": 1.8682,
      "step": 4016
    },
    {
      "epoch": 0.0022886375875067312,
      "grad_norm": 0.28664129972457886,
      "learning_rate": 5e-05,
      "loss": 2.0225,
      "step": 4017
    },
    {
      "epoch": 0.0024232633279483036,
      "grad_norm": 0.2495402842760086,
      "learning_rate": 5e-05,
      "loss": 1.7839,
      "step": 4018
    },
    {
      "epoch": 0.002557889068389876,
      "grad_norm": 0.23960618674755096,
      "learning_rate": 5e-05,
      "loss": 1.8579,
      "step": 4019
    },
    {
      "epoch": 0.0026925148088314485,
      "grad_norm": 0.24144093692302704,
      "learning_rate": 5e-05,
      "loss": 1.7624,
      "step": 4020
    },
    {
      "epoch": 0.002827140549273021,
      "grad_norm": 0.3612825870513916,
      "learning_rate": 5e-05,
      "loss": 2.9597,
      "step": 4021
    },
    {
      "epoch": 0.0029617662897145933,
      "grad_norm": 0.2595943808555603,
      "learning_rate": 5e-05,
      "loss": 2.1224,
      "step": 4022
    },
    {
      "epoch": 0.0030963920301561657,
      "grad_norm": 0.28040388226509094,
      "learning_rate": 5e-05,
      "loss": 2.1668,
      "step": 4023
    },
    {
      "epoch": 0.0032310177705977385,
      "grad_norm": 0.23420092463493347,
      "learning_rate": 5e-05,
      "loss": 1.7176,
      "step": 4024
    },
    {
      "epoch": 0.003365643511039311,
      "grad_norm": 0.24639010429382324,
      "learning_rate": 5e-05,
      "loss": 1.6803,
      "step": 4025
    },
    {
      "epoch": 0.0035002692514808833,
      "grad_norm": 0.26495596766471863,
      "learning_rate": 5e-05,
      "loss": 2.2741,
      "step": 4026
    },
    {
      "epoch": 0.0036348949919224557,
      "grad_norm": 0.24526290595531464,
      "learning_rate": 5e-05,
      "loss": 1.7211,
      "step": 4027
    },
    {
      "epoch": 0.003769520732364028,
      "grad_norm": 0.2534625232219696,
      "learning_rate": 5e-05,
      "loss": 1.8636,
      "step": 4028
    },
    {
      "epoch": 0.0039041464728056005,
      "grad_norm": 0.25216159224510193,
      "learning_rate": 5e-05,
      "loss": 1.9764,
      "step": 4029
    },
    {
      "epoch": 0.004038772213247173,
      "grad_norm": 0.24442428350448608,
      "learning_rate": 5e-05,
      "loss": 1.8541,
      "step": 4030
    },
    {
      "epoch": 0.004173397953688745,
      "grad_norm": 0.28431761264801025,
      "learning_rate": 5e-05,
      "loss": 1.7666,
      "step": 4031
    },
    {
      "epoch": 0.004308023694130318,
      "grad_norm": 0.25087305903434753,
      "learning_rate": 5e-05,
      "loss": 2.1171,
      "step": 4032
    },
    {
      "epoch": 0.0044426494345718905,
      "grad_norm": 0.25276631116867065,
      "learning_rate": 5e-05,
      "loss": 1.7794,
      "step": 4033
    },
    {
      "epoch": 0.0045772751750134625,
      "grad_norm": 0.4230947494506836,
      "learning_rate": 5e-05,
      "loss": 2.6584,
      "step": 4034
    },
    {
      "epoch": 0.004711900915455035,
      "grad_norm": 0.27056553959846497,
      "learning_rate": 5e-05,
      "loss": 2.4219,
      "step": 4035
    },
    {
      "epoch": 0.004846526655896607,
      "grad_norm": 0.2556842267513275,
      "learning_rate": 5e-05,
      "loss": 2.2158,
      "step": 4036
    },
    {
      "epoch": 0.00498115239633818,
      "grad_norm": 0.24758832156658173,
      "learning_rate": 5e-05,
      "loss": 1.9034,
      "step": 4037
    },
    {
      "epoch": 0.005115778136779752,
      "grad_norm": 0.2545916736125946,
      "learning_rate": 5e-05,
      "loss": 1.7931,
      "step": 4038
    },
    {
      "epoch": 0.005250403877221325,
      "grad_norm": 0.3076356053352356,
      "learning_rate": 5e-05,
      "loss": 2.3537,
      "step": 4039
    },
    {
      "epoch": 0.005385029617662897,
      "grad_norm": 0.2512487769126892,
      "learning_rate": 5e-05,
      "loss": 1.9515,
      "step": 4040
    },
    {
      "epoch": 0.00551965535810447,
      "grad_norm": 0.2954666316509247,
      "learning_rate": 5e-05,
      "loss": 2.2531,
      "step": 4041
    },
    {
      "epoch": 0.005654281098546042,
      "grad_norm": 0.3958650529384613,
      "learning_rate": 5e-05,
      "loss": 3.4115,
      "step": 4042
    },
    {
      "epoch": 0.0057889068389876145,
      "grad_norm": 0.2654416859149933,
      "learning_rate": 5e-05,
      "loss": 1.8717,
      "step": 4043
    },
    {
      "epoch": 0.0059235325794291865,
      "grad_norm": 0.3292171359062195,
      "learning_rate": 5e-05,
      "loss": 2.1594,
      "step": 4044
    },
    {
      "epoch": 0.006058158319870759,
      "grad_norm": 0.2898881733417511,
      "learning_rate": 5e-05,
      "loss": 2.0156,
      "step": 4045
    },
    {
      "epoch": 0.006192784060312331,
      "grad_norm": 0.37562069296836853,
      "learning_rate": 5e-05,
      "loss": 2.9379,
      "step": 4046
    },
    {
      "epoch": 0.006327409800753904,
      "grad_norm": 0.30778881907463074,
      "learning_rate": 5e-05,
      "loss": 2.0494,
      "step": 4047
    },
    {
      "epoch": 0.006462035541195477,
      "grad_norm": 0.2743103802204132,
      "learning_rate": 5e-05,
      "loss": 2.1762,
      "step": 4048
    },
    {
      "epoch": 0.006596661281637049,
      "grad_norm": 0.25909489393234253,
      "learning_rate": 5e-05,
      "loss": 2.1003,
      "step": 4049
    },
    {
      "epoch": 0.006731287022078622,
      "grad_norm": 0.2683398723602295,
      "learning_rate": 5e-05,
      "loss": 1.8014,
      "step": 4050
    },
    {
      "epoch": 0.006865912762520194,
      "grad_norm": 0.2508988380432129,
      "learning_rate": 5e-05,
      "loss": 1.9166,
      "step": 4051
    },
    {
      "epoch": 0.007000538502961767,
      "grad_norm": 0.26194924116134644,
      "learning_rate": 5e-05,
      "loss": 2.2468,
      "step": 4052
    },
    {
      "epoch": 0.0071351642434033385,
      "grad_norm": 0.3398911952972412,
      "learning_rate": 5e-05,
      "loss": 2.5427,
      "step": 4053
    },
    {
      "epoch": 0.007269789983844911,
      "grad_norm": 0.23981739580631256,
      "learning_rate": 5e-05,
      "loss": 1.8442,
      "step": 4054
    },
    {
      "epoch": 0.007404415724286483,
      "grad_norm": 0.2543930411338806,
      "learning_rate": 5e-05,
      "loss": 1.7041,
      "step": 4055
    },
    {
      "epoch": 0.007539041464728056,
      "grad_norm": 0.2927221655845642,
      "learning_rate": 5e-05,
      "loss": 2.2263,
      "step": 4056
    },
    {
      "epoch": 0.007673667205169628,
      "grad_norm": 0.29910895228385925,
      "learning_rate": 5e-05,
      "loss": 2.1189,
      "step": 4057
    },
    {
      "epoch": 0.007808292945611201,
      "grad_norm": 0.3106484115123749,
      "learning_rate": 5e-05,
      "loss": 2.4168,
      "step": 4058
    },
    {
      "epoch": 0.007942918686052774,
      "grad_norm": 0.2501222789287567,
      "learning_rate": 5e-05,
      "loss": 1.8334,
      "step": 4059
    },
    {
      "epoch": 0.008077544426494346,
      "grad_norm": 0.24727581441402435,
      "learning_rate": 5e-05,
      "loss": 1.666,
      "step": 4060
    },
    {
      "epoch": 0.008212170166935918,
      "grad_norm": 0.2557675242424011,
      "learning_rate": 5e-05,
      "loss": 1.9163,
      "step": 4061
    },
    {
      "epoch": 0.00834679590737749,
      "grad_norm": 0.31501662731170654,
      "learning_rate": 5e-05,
      "loss": 2.5982,
      "step": 4062
    },
    {
      "epoch": 0.008481421647819063,
      "grad_norm": 0.25444358587265015,
      "learning_rate": 5e-05,
      "loss": 1.9599,
      "step": 4063
    },
    {
      "epoch": 0.008616047388260635,
      "grad_norm": 0.2586532533168793,
      "learning_rate": 5e-05,
      "loss": 1.8063,
      "step": 4064
    },
    {
      "epoch": 0.008750673128702207,
      "grad_norm": 0.29740455746650696,
      "learning_rate": 5e-05,
      "loss": 2.1833,
      "step": 4065
    },
    {
      "epoch": 0.008885298869143781,
      "grad_norm": 0.2526397705078125,
      "learning_rate": 5e-05,
      "loss": 2.0575,
      "step": 4066
    },
    {
      "epoch": 0.009019924609585353,
      "grad_norm": 0.2589664161205292,
      "learning_rate": 5e-05,
      "loss": 1.9568,
      "step": 4067
    },
    {
      "epoch": 0.009154550350026925,
      "grad_norm": 0.3178086578845978,
      "learning_rate": 5e-05,
      "loss": 3.2903,
      "step": 4068
    },
    {
      "epoch": 0.009289176090468497,
      "grad_norm": 0.3065297603607178,
      "learning_rate": 5e-05,
      "loss": 2.4578,
      "step": 4069
    },
    {
      "epoch": 0.00942380183091007,
      "grad_norm": 0.2527475953102112,
      "learning_rate": 5e-05,
      "loss": 1.9631,
      "step": 4070
    },
    {
      "epoch": 0.009558427571351643,
      "grad_norm": 0.26061761379241943,
      "learning_rate": 5e-05,
      "loss": 1.9778,
      "step": 4071
    },
    {
      "epoch": 0.009693053311793215,
      "grad_norm": 0.2839534282684326,
      "learning_rate": 5e-05,
      "loss": 2.3017,
      "step": 4072
    },
    {
      "epoch": 0.009827679052234787,
      "grad_norm": 0.3198915421962738,
      "learning_rate": 5e-05,
      "loss": 2.2808,
      "step": 4073
    },
    {
      "epoch": 0.00996230479267636,
      "grad_norm": 0.2484055608510971,
      "learning_rate": 5e-05,
      "loss": 1.9502,
      "step": 4074
    },
    {
      "epoch": 0.010096930533117932,
      "grad_norm": 0.31401050090789795,
      "learning_rate": 5e-05,
      "loss": 2.6986,
      "step": 4075
    },
    {
      "epoch": 0.010231556273559504,
      "grad_norm": 0.24379952251911163,
      "learning_rate": 5e-05,
      "loss": 1.806,
      "step": 4076
    },
    {
      "epoch": 0.010366182014001076,
      "grad_norm": 0.2978052496910095,
      "learning_rate": 5e-05,
      "loss": 2.2314,
      "step": 4077
    },
    {
      "epoch": 0.01050080775444265,
      "grad_norm": 0.2504407465457916,
      "learning_rate": 5e-05,
      "loss": 1.6662,
      "step": 4078
    },
    {
      "epoch": 0.010635433494884222,
      "grad_norm": 0.26204490661621094,
      "learning_rate": 5e-05,
      "loss": 1.9742,
      "step": 4079
    },
    {
      "epoch": 0.010770059235325794,
      "grad_norm": 0.319018691778183,
      "learning_rate": 5e-05,
      "loss": 2.2221,
      "step": 4080
    },
    {
      "epoch": 0.010904684975767368,
      "grad_norm": 0.32758358120918274,
      "learning_rate": 5e-05,
      "loss": 2.4812,
      "step": 4081
    },
    {
      "epoch": 0.01103931071620894,
      "grad_norm": 0.29494708776474,
      "learning_rate": 5e-05,
      "loss": 2.3695,
      "step": 4082
    },
    {
      "epoch": 0.011173936456650511,
      "grad_norm": 0.250350683927536,
      "learning_rate": 5e-05,
      "loss": 1.8346,
      "step": 4083
    },
    {
      "epoch": 0.011308562197092083,
      "grad_norm": 0.4289480447769165,
      "learning_rate": 5e-05,
      "loss": 2.6461,
      "step": 4084
    },
    {
      "epoch": 0.011443187937533657,
      "grad_norm": 0.2603382170200348,
      "learning_rate": 5e-05,
      "loss": 1.8675,
      "step": 4085
    },
    {
      "epoch": 0.011577813677975229,
      "grad_norm": 0.38554397225379944,
      "learning_rate": 5e-05,
      "loss": 2.3215,
      "step": 4086
    },
    {
      "epoch": 0.011712439418416801,
      "grad_norm": 0.37171846628189087,
      "learning_rate": 5e-05,
      "loss": 3.1705,
      "step": 4087
    },
    {
      "epoch": 0.011847065158858373,
      "grad_norm": 0.3087526261806488,
      "learning_rate": 5e-05,
      "loss": 2.1774,
      "step": 4088
    },
    {
      "epoch": 0.011981690899299947,
      "grad_norm": 0.30085489153862,
      "learning_rate": 5e-05,
      "loss": 2.0808,
      "step": 4089
    },
    {
      "epoch": 0.012116316639741519,
      "grad_norm": 0.289972186088562,
      "learning_rate": 5e-05,
      "loss": 2.8259,
      "step": 4090
    },
    {
      "epoch": 0.01225094238018309,
      "grad_norm": 0.27648913860321045,
      "learning_rate": 5e-05,
      "loss": 1.8653,
      "step": 4091
    },
    {
      "epoch": 0.012385568120624663,
      "grad_norm": 0.25768738985061646,
      "learning_rate": 5e-05,
      "loss": 1.679,
      "step": 4092
    },
    {
      "epoch": 0.012520193861066236,
      "grad_norm": 0.2700861990451813,
      "learning_rate": 5e-05,
      "loss": 1.8542,
      "step": 4093
    },
    {
      "epoch": 0.012654819601507808,
      "grad_norm": 0.27231839299201965,
      "learning_rate": 5e-05,
      "loss": 2.2462,
      "step": 4094
    },
    {
      "epoch": 0.01278944534194938,
      "grad_norm": 0.44056499004364014,
      "learning_rate": 5e-05,
      "loss": 2.4236,
      "step": 4095
    },
    {
      "epoch": 0.012924071082390954,
      "grad_norm": 0.24017710983753204,
      "learning_rate": 5e-05,
      "loss": 1.8562,
      "step": 4096
    },
    {
      "epoch": 0.013058696822832526,
      "grad_norm": 0.2768876552581787,
      "learning_rate": 5e-05,
      "loss": 2.153,
      "step": 4097
    },
    {
      "epoch": 0.013193322563274098,
      "grad_norm": 0.2867014706134796,
      "learning_rate": 5e-05,
      "loss": 2.0681,
      "step": 4098
    },
    {
      "epoch": 0.01332794830371567,
      "grad_norm": 0.24582810699939728,
      "learning_rate": 5e-05,
      "loss": 1.9581,
      "step": 4099
    },
    {
      "epoch": 0.013462574044157244,
      "grad_norm": 0.2901044487953186,
      "learning_rate": 5e-05,
      "loss": 2.3972,
      "step": 4100
    },
    {
      "epoch": 0.013597199784598816,
      "grad_norm": 0.26099300384521484,
      "learning_rate": 5e-05,
      "loss": 1.9092,
      "step": 4101
    },
    {
      "epoch": 0.013731825525040387,
      "grad_norm": 0.2545008361339569,
      "learning_rate": 5e-05,
      "loss": 1.9724,
      "step": 4102
    },
    {
      "epoch": 0.01386645126548196,
      "grad_norm": 0.2657684087753296,
      "learning_rate": 5e-05,
      "loss": 1.9774,
      "step": 4103
    },
    {
      "epoch": 0.014001077005923533,
      "grad_norm": 0.37296950817108154,
      "learning_rate": 5e-05,
      "loss": 2.5593,
      "step": 4104
    },
    {
      "epoch": 0.014135702746365105,
      "grad_norm": 0.24634139239788055,
      "learning_rate": 5e-05,
      "loss": 1.9875,
      "step": 4105
    },
    {
      "epoch": 0.014270328486806677,
      "grad_norm": 0.2584012746810913,
      "learning_rate": 5e-05,
      "loss": 1.8387,
      "step": 4106
    },
    {
      "epoch": 0.014404954227248249,
      "grad_norm": 0.3000270128250122,
      "learning_rate": 5e-05,
      "loss": 2.3031,
      "step": 4107
    },
    {
      "epoch": 0.014539579967689823,
      "grad_norm": 0.2954351603984833,
      "learning_rate": 5e-05,
      "loss": 2.1979,
      "step": 4108
    },
    {
      "epoch": 0.014674205708131395,
      "grad_norm": 0.24543510377407074,
      "learning_rate": 5e-05,
      "loss": 1.6697,
      "step": 4109
    },
    {
      "epoch": 0.014808831448572967,
      "grad_norm": 0.39562129974365234,
      "learning_rate": 5e-05,
      "loss": 2.8677,
      "step": 4110
    },
    {
      "epoch": 0.01494345718901454,
      "grad_norm": 0.25239697098731995,
      "learning_rate": 5e-05,
      "loss": 1.7395,
      "step": 4111
    },
    {
      "epoch": 0.015078082929456112,
      "grad_norm": 0.24984169006347656,
      "learning_rate": 5e-05,
      "loss": 2.0128,
      "step": 4112
    },
    {
      "epoch": 0.015212708669897684,
      "grad_norm": 0.2464105635881424,
      "learning_rate": 5e-05,
      "loss": 1.6359,
      "step": 4113
    },
    {
      "epoch": 0.015347334410339256,
      "grad_norm": 0.24669547379016876,
      "learning_rate": 5e-05,
      "loss": 1.7145,
      "step": 4114
    },
    {
      "epoch": 0.01548196015078083,
      "grad_norm": 0.29039910435676575,
      "learning_rate": 5e-05,
      "loss": 1.9852,
      "step": 4115
    },
    {
      "epoch": 0.015616585891222402,
      "grad_norm": 0.26243993639945984,
      "learning_rate": 5e-05,
      "loss": 1.9807,
      "step": 4116
    },
    {
      "epoch": 0.015751211631663976,
      "grad_norm": 0.24110183119773865,
      "learning_rate": 5e-05,
      "loss": 1.9657,
      "step": 4117
    },
    {
      "epoch": 0.015885837372105548,
      "grad_norm": 0.2749112546443939,
      "learning_rate": 5e-05,
      "loss": 1.7777,
      "step": 4118
    },
    {
      "epoch": 0.01602046311254712,
      "grad_norm": 0.24997952580451965,
      "learning_rate": 5e-05,
      "loss": 2.0761,
      "step": 4119
    },
    {
      "epoch": 0.01615508885298869,
      "grad_norm": 0.28253933787345886,
      "learning_rate": 5e-05,
      "loss": 2.1217,
      "step": 4120
    },
    {
      "epoch": 0.016289714593430264,
      "grad_norm": 0.2404361516237259,
      "learning_rate": 5e-05,
      "loss": 1.7427,
      "step": 4121
    },
    {
      "epoch": 0.016424340333871836,
      "grad_norm": 0.24306827783584595,
      "learning_rate": 5e-05,
      "loss": 1.8535,
      "step": 4122
    },
    {
      "epoch": 0.016558966074313407,
      "grad_norm": 0.3093452453613281,
      "learning_rate": 5e-05,
      "loss": 2.267,
      "step": 4123
    },
    {
      "epoch": 0.01669359181475498,
      "grad_norm": 0.2641681730747223,
      "learning_rate": 5e-05,
      "loss": 1.9735,
      "step": 4124
    },
    {
      "epoch": 0.016828217555196555,
      "grad_norm": 0.2591835558414459,
      "learning_rate": 5e-05,
      "loss": 1.754,
      "step": 4125
    },
    {
      "epoch": 0.016962843295638127,
      "grad_norm": 0.25666409730911255,
      "learning_rate": 5e-05,
      "loss": 1.7146,
      "step": 4126
    },
    {
      "epoch": 0.0170974690360797,
      "grad_norm": 0.2386140525341034,
      "learning_rate": 5e-05,
      "loss": 1.7416,
      "step": 4127
    },
    {
      "epoch": 0.01723209477652127,
      "grad_norm": 0.24062447249889374,
      "learning_rate": 5e-05,
      "loss": 1.8966,
      "step": 4128
    },
    {
      "epoch": 0.017366720516962843,
      "grad_norm": 0.2773016393184662,
      "learning_rate": 5e-05,
      "loss": 1.8396,
      "step": 4129
    },
    {
      "epoch": 0.017501346257404415,
      "grad_norm": 0.2566847801208496,
      "learning_rate": 5e-05,
      "loss": 2.0094,
      "step": 4130
    },
    {
      "epoch": 0.017635971997845987,
      "grad_norm": 0.22506138682365417,
      "learning_rate": 5e-05,
      "loss": 1.6893,
      "step": 4131
    },
    {
      "epoch": 0.017770597738287562,
      "grad_norm": 0.2740775942802429,
      "learning_rate": 5e-05,
      "loss": 2.269,
      "step": 4132
    },
    {
      "epoch": 0.017905223478729134,
      "grad_norm": 0.37510383129119873,
      "learning_rate": 5e-05,
      "loss": 2.7635,
      "step": 4133
    },
    {
      "epoch": 0.018039849219170706,
      "grad_norm": 0.25309860706329346,
      "learning_rate": 5e-05,
      "loss": 2.0004,
      "step": 4134
    },
    {
      "epoch": 0.018174474959612278,
      "grad_norm": 0.2779614329338074,
      "learning_rate": 5e-05,
      "loss": 1.9792,
      "step": 4135
    },
    {
      "epoch": 0.01830910070005385,
      "grad_norm": 0.2521648705005646,
      "learning_rate": 5e-05,
      "loss": 1.811,
      "step": 4136
    },
    {
      "epoch": 0.018443726440495422,
      "grad_norm": 0.25928980112075806,
      "learning_rate": 5e-05,
      "loss": 1.7202,
      "step": 4137
    },
    {
      "epoch": 0.018578352180936994,
      "grad_norm": 0.2552979588508606,
      "learning_rate": 5e-05,
      "loss": 1.7961,
      "step": 4138
    },
    {
      "epoch": 0.018712977921378566,
      "grad_norm": 0.2450597584247589,
      "learning_rate": 5e-05,
      "loss": 1.9102,
      "step": 4139
    },
    {
      "epoch": 0.01884760366182014,
      "grad_norm": 0.2675105929374695,
      "learning_rate": 5e-05,
      "loss": 2.2245,
      "step": 4140
    },
    {
      "epoch": 0.018982229402261713,
      "grad_norm": 0.28587132692337036,
      "learning_rate": 5e-05,
      "loss": 2.0426,
      "step": 4141
    },
    {
      "epoch": 0.019116855142703285,
      "grad_norm": 0.2494155466556549,
      "learning_rate": 5e-05,
      "loss": 1.8026,
      "step": 4142
    },
    {
      "epoch": 0.019251480883144857,
      "grad_norm": 0.26760345697402954,
      "learning_rate": 5e-05,
      "loss": 2.03,
      "step": 4143
    },
    {
      "epoch": 0.01938610662358643,
      "grad_norm": 0.3340113162994385,
      "learning_rate": 5e-05,
      "loss": 3.0692,
      "step": 4144
    },
    {
      "epoch": 0.019520732364028,
      "grad_norm": 0.26641082763671875,
      "learning_rate": 5e-05,
      "loss": 2.0919,
      "step": 4145
    },
    {
      "epoch": 0.019655358104469573,
      "grad_norm": 0.2804292142391205,
      "learning_rate": 5e-05,
      "loss": 1.9514,
      "step": 4146
    },
    {
      "epoch": 0.01978998384491115,
      "grad_norm": 0.2629106342792511,
      "learning_rate": 5e-05,
      "loss": 2.062,
      "step": 4147
    },
    {
      "epoch": 0.01992460958535272,
      "grad_norm": 0.25626838207244873,
      "learning_rate": 5e-05,
      "loss": 1.7161,
      "step": 4148
    },
    {
      "epoch": 0.020059235325794292,
      "grad_norm": 0.2817698121070862,
      "learning_rate": 5e-05,
      "loss": 2.4291,
      "step": 4149
    },
    {
      "epoch": 0.020193861066235864,
      "grad_norm": 0.4512106478214264,
      "learning_rate": 5e-05,
      "loss": 2.1789,
      "step": 4150
    },
    {
      "epoch": 0.020328486806677436,
      "grad_norm": 0.2623104155063629,
      "learning_rate": 5e-05,
      "loss": 1.7459,
      "step": 4151
    },
    {
      "epoch": 0.02046311254711901,
      "grad_norm": 0.3052802085876465,
      "learning_rate": 5e-05,
      "loss": 2.2057,
      "step": 4152
    },
    {
      "epoch": 0.02059773828756058,
      "grad_norm": 0.3058623969554901,
      "learning_rate": 5e-05,
      "loss": 2.3408,
      "step": 4153
    },
    {
      "epoch": 0.020732364028002152,
      "grad_norm": 0.2519824206829071,
      "learning_rate": 5e-05,
      "loss": 1.6771,
      "step": 4154
    },
    {
      "epoch": 0.020866989768443728,
      "grad_norm": 0.2625834047794342,
      "learning_rate": 5e-05,
      "loss": 1.8834,
      "step": 4155
    },
    {
      "epoch": 0.0210016155088853,
      "grad_norm": 0.38834571838378906,
      "learning_rate": 5e-05,
      "loss": 3.1355,
      "step": 4156
    },
    {
      "epoch": 0.02113624124932687,
      "grad_norm": 0.29164251685142517,
      "learning_rate": 5e-05,
      "loss": 2.2781,
      "step": 4157
    },
    {
      "epoch": 0.021270866989768444,
      "grad_norm": 0.3048577606678009,
      "learning_rate": 5e-05,
      "loss": 2.6152,
      "step": 4158
    },
    {
      "epoch": 0.021405492730210016,
      "grad_norm": 0.3477490246295929,
      "learning_rate": 5e-05,
      "loss": 2.4818,
      "step": 4159
    },
    {
      "epoch": 0.021540118470651588,
      "grad_norm": 0.28867095708847046,
      "learning_rate": 5e-05,
      "loss": 2.5837,
      "step": 4160
    },
    {
      "epoch": 0.02167474421109316,
      "grad_norm": 0.28073546290397644,
      "learning_rate": 5e-05,
      "loss": 2.0066,
      "step": 4161
    },
    {
      "epoch": 0.021809369951534735,
      "grad_norm": 0.3209300637245178,
      "learning_rate": 5e-05,
      "loss": 2.3704,
      "step": 4162
    },
    {
      "epoch": 0.021943995691976307,
      "grad_norm": 0.2510347366333008,
      "learning_rate": 5e-05,
      "loss": 1.9573,
      "step": 4163
    },
    {
      "epoch": 0.02207862143241788,
      "grad_norm": 0.343363493680954,
      "learning_rate": 5e-05,
      "loss": 3.2031,
      "step": 4164
    },
    {
      "epoch": 0.02221324717285945,
      "grad_norm": 0.2621651589870453,
      "learning_rate": 5e-05,
      "loss": 1.876,
      "step": 4165
    },
    {
      "epoch": 0.022347872913301023,
      "grad_norm": 0.24702928960323334,
      "learning_rate": 5e-05,
      "loss": 1.6271,
      "step": 4166
    },
    {
      "epoch": 0.022482498653742595,
      "grad_norm": 0.23526312410831451,
      "learning_rate": 5e-05,
      "loss": 1.765,
      "step": 4167
    },
    {
      "epoch": 0.022617124394184167,
      "grad_norm": 0.2865719199180603,
      "learning_rate": 5e-05,
      "loss": 1.929,
      "step": 4168
    },
    {
      "epoch": 0.02275175013462574,
      "grad_norm": 0.2483215034008026,
      "learning_rate": 5e-05,
      "loss": 2.426,
      "step": 4169
    },
    {
      "epoch": 0.022886375875067314,
      "grad_norm": 0.2798043191432953,
      "learning_rate": 5e-05,
      "loss": 2.0817,
      "step": 4170
    },
    {
      "epoch": 0.023021001615508886,
      "grad_norm": 0.25162801146507263,
      "learning_rate": 5e-05,
      "loss": 1.8574,
      "step": 4171
    },
    {
      "epoch": 0.023155627355950458,
      "grad_norm": 0.2739851176738739,
      "learning_rate": 5e-05,
      "loss": 2.1774,
      "step": 4172
    },
    {
      "epoch": 0.02329025309639203,
      "grad_norm": 0.2506581246852875,
      "learning_rate": 5e-05,
      "loss": 1.794,
      "step": 4173
    },
    {
      "epoch": 0.023424878836833602,
      "grad_norm": 0.2534841001033783,
      "learning_rate": 5e-05,
      "loss": 1.731,
      "step": 4174
    },
    {
      "epoch": 0.023559504577275174,
      "grad_norm": 0.27557530999183655,
      "learning_rate": 5e-05,
      "loss": 1.9002,
      "step": 4175
    },
    {
      "epoch": 0.023694130317716746,
      "grad_norm": 0.2597678601741791,
      "learning_rate": 5e-05,
      "loss": 1.9574,
      "step": 4176
    },
    {
      "epoch": 0.02382875605815832,
      "grad_norm": 0.33889544010162354,
      "learning_rate": 5e-05,
      "loss": 2.6096,
      "step": 4177
    },
    {
      "epoch": 0.023963381798599893,
      "grad_norm": 0.255854994058609,
      "learning_rate": 5e-05,
      "loss": 2.144,
      "step": 4178
    },
    {
      "epoch": 0.024098007539041465,
      "grad_norm": 0.3382169306278229,
      "learning_rate": 5e-05,
      "loss": 2.9349,
      "step": 4179
    },
    {
      "epoch": 0.024232633279483037,
      "grad_norm": 0.35345348715782166,
      "learning_rate": 5e-05,
      "loss": 2.4301,
      "step": 4180
    },
    {
      "epoch": 0.02436725901992461,
      "grad_norm": 0.25120577216148376,
      "learning_rate": 5e-05,
      "loss": 1.9172,
      "step": 4181
    },
    {
      "epoch": 0.02450188476036618,
      "grad_norm": 0.2809974253177643,
      "learning_rate": 5e-05,
      "loss": 2.6129,
      "step": 4182
    },
    {
      "epoch": 0.024636510500807753,
      "grad_norm": 0.32935771346092224,
      "learning_rate": 5e-05,
      "loss": 2.4936,
      "step": 4183
    },
    {
      "epoch": 0.024771136241249325,
      "grad_norm": 0.2522067427635193,
      "learning_rate": 5e-05,
      "loss": 1.8829,
      "step": 4184
    },
    {
      "epoch": 0.0249057619816909,
      "grad_norm": 0.24842166900634766,
      "learning_rate": 5e-05,
      "loss": 1.8493,
      "step": 4185
    },
    {
      "epoch": 0.025040387722132473,
      "grad_norm": 0.3275567889213562,
      "learning_rate": 5e-05,
      "loss": 2.537,
      "step": 4186
    },
    {
      "epoch": 0.025175013462574045,
      "grad_norm": 0.26116055250167847,
      "learning_rate": 5e-05,
      "loss": 1.7801,
      "step": 4187
    },
    {
      "epoch": 0.025309639203015617,
      "grad_norm": 0.25624334812164307,
      "learning_rate": 5e-05,
      "loss": 1.728,
      "step": 4188
    },
    {
      "epoch": 0.02544426494345719,
      "grad_norm": 0.26754215359687805,
      "learning_rate": 5e-05,
      "loss": 2.0118,
      "step": 4189
    },
    {
      "epoch": 0.02557889068389876,
      "grad_norm": 0.24692849814891815,
      "learning_rate": 5e-05,
      "loss": 1.8812,
      "step": 4190
    },
    {
      "epoch": 0.025713516424340332,
      "grad_norm": 0.302517831325531,
      "learning_rate": 5e-05,
      "loss": 2.1619,
      "step": 4191
    },
    {
      "epoch": 0.025848142164781908,
      "grad_norm": 0.299405574798584,
      "learning_rate": 5e-05,
      "loss": 2.2106,
      "step": 4192
    },
    {
      "epoch": 0.02598276790522348,
      "grad_norm": 0.2615167498588562,
      "learning_rate": 5e-05,
      "loss": 2.3493,
      "step": 4193
    },
    {
      "epoch": 0.026117393645665052,
      "grad_norm": 0.28122031688690186,
      "learning_rate": 5e-05,
      "loss": 2.4751,
      "step": 4194
    },
    {
      "epoch": 0.026252019386106624,
      "grad_norm": 0.25338366627693176,
      "learning_rate": 5e-05,
      "loss": 2.2713,
      "step": 4195
    },
    {
      "epoch": 0.026386645126548196,
      "grad_norm": 0.2566012144088745,
      "learning_rate": 5e-05,
      "loss": 1.6518,
      "step": 4196
    },
    {
      "epoch": 0.026521270866989768,
      "grad_norm": 0.27465933561325073,
      "learning_rate": 5e-05,
      "loss": 1.8713,
      "step": 4197
    },
    {
      "epoch": 0.02665589660743134,
      "grad_norm": 0.241947740316391,
      "learning_rate": 5e-05,
      "loss": 1.7418,
      "step": 4198
    },
    {
      "epoch": 0.02679052234787291,
      "grad_norm": 0.2475632280111313,
      "learning_rate": 5e-05,
      "loss": 1.9342,
      "step": 4199
    },
    {
      "epoch": 0.026925148088314487,
      "grad_norm": 0.2503282427787781,
      "learning_rate": 5e-05,
      "loss": 1.9271,
      "step": 4200
    },
    {
      "epoch": 0.02705977382875606,
      "grad_norm": 0.2507905960083008,
      "learning_rate": 5e-05,
      "loss": 1.7303,
      "step": 4201
    },
    {
      "epoch": 0.02719439956919763,
      "grad_norm": 0.2585606873035431,
      "learning_rate": 5e-05,
      "loss": 1.9309,
      "step": 4202
    },
    {
      "epoch": 0.027329025309639203,
      "grad_norm": 0.31400617957115173,
      "learning_rate": 5e-05,
      "loss": 2.9311,
      "step": 4203
    },
    {
      "epoch": 0.027463651050080775,
      "grad_norm": 0.24269837141036987,
      "learning_rate": 5e-05,
      "loss": 1.8686,
      "step": 4204
    },
    {
      "epoch": 0.027598276790522347,
      "grad_norm": 0.2729237675666809,
      "learning_rate": 5e-05,
      "loss": 2.2066,
      "step": 4205
    },
    {
      "epoch": 0.02773290253096392,
      "grad_norm": 0.2574326992034912,
      "learning_rate": 5e-05,
      "loss": 1.921,
      "step": 4206
    },
    {
      "epoch": 0.027867528271405494,
      "grad_norm": 0.24964968860149384,
      "learning_rate": 5e-05,
      "loss": 2.0831,
      "step": 4207
    },
    {
      "epoch": 0.028002154011847066,
      "grad_norm": 0.2906252145767212,
      "learning_rate": 5e-05,
      "loss": 2.4124,
      "step": 4208
    },
    {
      "epoch": 0.02813677975228864,
      "grad_norm": 0.2634487450122833,
      "learning_rate": 5e-05,
      "loss": 1.9846,
      "step": 4209
    },
    {
      "epoch": 0.02827140549273021,
      "grad_norm": 0.24243411421775818,
      "learning_rate": 5e-05,
      "loss": 1.4938,
      "step": 4210
    },
    {
      "epoch": 0.028406031233171782,
      "grad_norm": 0.3092934489250183,
      "learning_rate": 5e-05,
      "loss": 3.072,
      "step": 4211
    },
    {
      "epoch": 0.028540656973613354,
      "grad_norm": 0.2490117847919464,
      "learning_rate": 5e-05,
      "loss": 2.0742,
      "step": 4212
    },
    {
      "epoch": 0.028675282714054926,
      "grad_norm": 0.2897584140300751,
      "learning_rate": 5e-05,
      "loss": 2.3329,
      "step": 4213
    },
    {
      "epoch": 0.028809908454496498,
      "grad_norm": 0.274718701839447,
      "learning_rate": 5e-05,
      "loss": 2.2062,
      "step": 4214
    },
    {
      "epoch": 0.028944534194938074,
      "grad_norm": 0.3191632330417633,
      "learning_rate": 5e-05,
      "loss": 2.2797,
      "step": 4215
    },
    {
      "epoch": 0.029079159935379646,
      "grad_norm": 0.24728168547153473,
      "learning_rate": 5e-05,
      "loss": 1.884,
      "step": 4216
    },
    {
      "epoch": 0.029213785675821217,
      "grad_norm": 0.24040071666240692,
      "learning_rate": 5e-05,
      "loss": 1.7432,
      "step": 4217
    },
    {
      "epoch": 0.02934841141626279,
      "grad_norm": 0.2706027328968048,
      "learning_rate": 5e-05,
      "loss": 2.2483,
      "step": 4218
    },
    {
      "epoch": 0.02948303715670436,
      "grad_norm": 0.29090166091918945,
      "learning_rate": 5e-05,
      "loss": 2.33,
      "step": 4219
    },
    {
      "epoch": 0.029617662897145933,
      "grad_norm": 0.2315085530281067,
      "learning_rate": 5e-05,
      "loss": 1.7123,
      "step": 4220
    },
    {
      "epoch": 0.029752288637587505,
      "grad_norm": 0.2592136561870575,
      "learning_rate": 5e-05,
      "loss": 1.9022,
      "step": 4221
    },
    {
      "epoch": 0.02988691437802908,
      "grad_norm": 0.31713730096817017,
      "learning_rate": 5e-05,
      "loss": 2.4544,
      "step": 4222
    },
    {
      "epoch": 0.030021540118470653,
      "grad_norm": 0.269466757774353,
      "learning_rate": 5e-05,
      "loss": 2.1094,
      "step": 4223
    },
    {
      "epoch": 0.030156165858912225,
      "grad_norm": 0.29688146710395813,
      "learning_rate": 5e-05,
      "loss": 2.4307,
      "step": 4224
    },
    {
      "epoch": 0.030290791599353797,
      "grad_norm": 0.22936169803142548,
      "learning_rate": 5e-05,
      "loss": 1.717,
      "step": 4225
    },
    {
      "epoch": 0.03042541733979537,
      "grad_norm": 0.2445632368326187,
      "learning_rate": 5e-05,
      "loss": 1.7623,
      "step": 4226
    },
    {
      "epoch": 0.03056004308023694,
      "grad_norm": 0.2416999191045761,
      "learning_rate": 5e-05,
      "loss": 1.8849,
      "step": 4227
    },
    {
      "epoch": 0.030694668820678513,
      "grad_norm": 0.2597144842147827,
      "learning_rate": 5e-05,
      "loss": 2.132,
      "step": 4228
    },
    {
      "epoch": 0.030829294561120085,
      "grad_norm": 0.25865694880485535,
      "learning_rate": 5e-05,
      "loss": 1.8732,
      "step": 4229
    },
    {
      "epoch": 0.03096392030156166,
      "grad_norm": 0.27511581778526306,
      "learning_rate": 5e-05,
      "loss": 1.9523,
      "step": 4230
    },
    {
      "epoch": 0.031098546042003232,
      "grad_norm": 0.246702179312706,
      "learning_rate": 5e-05,
      "loss": 1.681,
      "step": 4231
    },
    {
      "epoch": 0.031233171782444804,
      "grad_norm": 0.2566559612751007,
      "learning_rate": 5e-05,
      "loss": 2.0048,
      "step": 4232
    },
    {
      "epoch": 0.031367797522886376,
      "grad_norm": 0.30695560574531555,
      "learning_rate": 5e-05,
      "loss": 2.5933,
      "step": 4233
    },
    {
      "epoch": 0.03150242326332795,
      "grad_norm": 0.2719660997390747,
      "learning_rate": 5e-05,
      "loss": 2.2254,
      "step": 4234
    },
    {
      "epoch": 0.03163704900376952,
      "grad_norm": 0.27089911699295044,
      "learning_rate": 5e-05,
      "loss": 1.9367,
      "step": 4235
    },
    {
      "epoch": 0.031771674744211095,
      "grad_norm": 0.30726152658462524,
      "learning_rate": 5e-05,
      "loss": 2.5108,
      "step": 4236
    },
    {
      "epoch": 0.031906300484652664,
      "grad_norm": 0.3169863820075989,
      "learning_rate": 5e-05,
      "loss": 3.2313,
      "step": 4237
    },
    {
      "epoch": 0.03204092622509424,
      "grad_norm": 0.23414404690265656,
      "learning_rate": 5e-05,
      "loss": 1.8673,
      "step": 4238
    },
    {
      "epoch": 0.03217555196553581,
      "grad_norm": 0.23804335296154022,
      "learning_rate": 5e-05,
      "loss": 1.6591,
      "step": 4239
    },
    {
      "epoch": 0.03231017770597738,
      "grad_norm": 0.24870756268501282,
      "learning_rate": 5e-05,
      "loss": 1.6299,
      "step": 4240
    },
    {
      "epoch": 0.03244480344641896,
      "grad_norm": 0.46367764472961426,
      "learning_rate": 5e-05,
      "loss": 2.6606,
      "step": 4241
    },
    {
      "epoch": 0.03257942918686053,
      "grad_norm": 0.25102534890174866,
      "learning_rate": 5e-05,
      "loss": 1.7121,
      "step": 4242
    },
    {
      "epoch": 0.0327140549273021,
      "grad_norm": 0.2697827219963074,
      "learning_rate": 5e-05,
      "loss": 1.8385,
      "step": 4243
    },
    {
      "epoch": 0.03284868066774367,
      "grad_norm": 0.26178616285324097,
      "learning_rate": 5e-05,
      "loss": 1.7688,
      "step": 4244
    },
    {
      "epoch": 0.032983306408185246,
      "grad_norm": 0.3446626365184784,
      "learning_rate": 5e-05,
      "loss": 3.007,
      "step": 4245
    },
    {
      "epoch": 0.033117932148626815,
      "grad_norm": 0.2695428729057312,
      "learning_rate": 5e-05,
      "loss": 1.7153,
      "step": 4246
    },
    {
      "epoch": 0.03325255788906839,
      "grad_norm": 0.257928729057312,
      "learning_rate": 5e-05,
      "loss": 1.6358,
      "step": 4247
    },
    {
      "epoch": 0.03338718362950996,
      "grad_norm": 0.25448718667030334,
      "learning_rate": 5e-05,
      "loss": 1.9216,
      "step": 4248
    },
    {
      "epoch": 0.033521809369951534,
      "grad_norm": 0.36143600940704346,
      "learning_rate": 5e-05,
      "loss": 2.7945,
      "step": 4249
    },
    {
      "epoch": 0.03365643511039311,
      "grad_norm": 0.2803281545639038,
      "learning_rate": 5e-05,
      "loss": 2.1127,
      "step": 4250
    },
    {
      "epoch": 0.03379106085083468,
      "grad_norm": 0.24628746509552002,
      "learning_rate": 5e-05,
      "loss": 1.8124,
      "step": 4251
    },
    {
      "epoch": 0.033925686591276254,
      "grad_norm": 0.24153859913349152,
      "learning_rate": 5e-05,
      "loss": 1.7739,
      "step": 4252
    },
    {
      "epoch": 0.03406031233171782,
      "grad_norm": 0.2430025190114975,
      "learning_rate": 5e-05,
      "loss": 1.8135,
      "step": 4253
    },
    {
      "epoch": 0.0341949380721594,
      "grad_norm": 0.2571110427379608,
      "learning_rate": 5e-05,
      "loss": 2.001,
      "step": 4254
    },
    {
      "epoch": 0.034329563812600966,
      "grad_norm": 0.2880837023258209,
      "learning_rate": 5e-05,
      "loss": 2.0113,
      "step": 4255
    },
    {
      "epoch": 0.03446418955304254,
      "grad_norm": 0.23728829622268677,
      "learning_rate": 5e-05,
      "loss": 1.6365,
      "step": 4256
    },
    {
      "epoch": 0.03459881529348412,
      "grad_norm": 0.26180917024612427,
      "learning_rate": 5e-05,
      "loss": 1.9055,
      "step": 4257
    },
    {
      "epoch": 0.034733441033925685,
      "grad_norm": 0.24867352843284607,
      "learning_rate": 5e-05,
      "loss": 1.977,
      "step": 4258
    },
    {
      "epoch": 0.03486806677436726,
      "grad_norm": 0.24562795460224152,
      "learning_rate": 5e-05,
      "loss": 1.8723,
      "step": 4259
    },
    {
      "epoch": 0.03500269251480883,
      "grad_norm": 0.23962974548339844,
      "learning_rate": 5e-05,
      "loss": 1.7799,
      "step": 4260
    },
    {
      "epoch": 0.035137318255250405,
      "grad_norm": 0.2757530212402344,
      "learning_rate": 5e-05,
      "loss": 2.1487,
      "step": 4261
    },
    {
      "epoch": 0.03527194399569197,
      "grad_norm": 0.2586282789707184,
      "learning_rate": 5e-05,
      "loss": 1.9713,
      "step": 4262
    },
    {
      "epoch": 0.03540656973613355,
      "grad_norm": 0.26002001762390137,
      "learning_rate": 5e-05,
      "loss": 2.0546,
      "step": 4263
    },
    {
      "epoch": 0.035541195476575124,
      "grad_norm": 0.30411842465400696,
      "learning_rate": 5e-05,
      "loss": 2.5758,
      "step": 4264
    },
    {
      "epoch": 0.03567582121701669,
      "grad_norm": 0.24578994512557983,
      "learning_rate": 5e-05,
      "loss": 1.7344,
      "step": 4265
    },
    {
      "epoch": 0.03581044695745827,
      "grad_norm": 0.26982733607292175,
      "learning_rate": 5e-05,
      "loss": 2.0106,
      "step": 4266
    },
    {
      "epoch": 0.03594507269789984,
      "grad_norm": 0.257638156414032,
      "learning_rate": 5e-05,
      "loss": 2.0586,
      "step": 4267
    },
    {
      "epoch": 0.03607969843834141,
      "grad_norm": 0.3140619695186615,
      "learning_rate": 5e-05,
      "loss": 2.3158,
      "step": 4268
    },
    {
      "epoch": 0.03621432417878298,
      "grad_norm": 0.26336103677749634,
      "learning_rate": 5e-05,
      "loss": 2.1463,
      "step": 4269
    },
    {
      "epoch": 0.036348949919224556,
      "grad_norm": 0.25215503573417664,
      "learning_rate": 5e-05,
      "loss": 2.0781,
      "step": 4270
    },
    {
      "epoch": 0.03648357565966613,
      "grad_norm": 0.2513848543167114,
      "learning_rate": 5e-05,
      "loss": 1.7576,
      "step": 4271
    },
    {
      "epoch": 0.0366182014001077,
      "grad_norm": 0.24923540651798248,
      "learning_rate": 5e-05,
      "loss": 1.8631,
      "step": 4272
    },
    {
      "epoch": 0.036752827140549275,
      "grad_norm": 0.2889678478240967,
      "learning_rate": 5e-05,
      "loss": 2.2224,
      "step": 4273
    },
    {
      "epoch": 0.036887452880990844,
      "grad_norm": 0.25472939014434814,
      "learning_rate": 5e-05,
      "loss": 1.9888,
      "step": 4274
    },
    {
      "epoch": 0.03702207862143242,
      "grad_norm": 0.38708528876304626,
      "learning_rate": 5e-05,
      "loss": 2.6104,
      "step": 4275
    },
    {
      "epoch": 0.03715670436187399,
      "grad_norm": 0.2516772150993347,
      "learning_rate": 5e-05,
      "loss": 1.8785,
      "step": 4276
    },
    {
      "epoch": 0.03729133010231556,
      "grad_norm": 0.23907381296157837,
      "learning_rate": 5e-05,
      "loss": 1.7025,
      "step": 4277
    },
    {
      "epoch": 0.03742595584275713,
      "grad_norm": 0.27666202187538147,
      "learning_rate": 5e-05,
      "loss": 1.9777,
      "step": 4278
    },
    {
      "epoch": 0.03756058158319871,
      "grad_norm": 0.2551519572734833,
      "learning_rate": 5e-05,
      "loss": 1.8176,
      "step": 4279
    },
    {
      "epoch": 0.03769520732364028,
      "grad_norm": 0.2722892761230469,
      "learning_rate": 5e-05,
      "loss": 1.9784,
      "step": 4280
    },
    {
      "epoch": 0.03782983306408185,
      "grad_norm": 0.3619285821914673,
      "learning_rate": 5e-05,
      "loss": 2.71,
      "step": 4281
    },
    {
      "epoch": 0.03796445880452343,
      "grad_norm": 0.23884175717830658,
      "learning_rate": 5e-05,
      "loss": 1.6045,
      "step": 4282
    },
    {
      "epoch": 0.038099084544964995,
      "grad_norm": 0.3432213366031647,
      "learning_rate": 5e-05,
      "loss": 2.2656,
      "step": 4283
    },
    {
      "epoch": 0.03823371028540657,
      "grad_norm": 0.26270371675491333,
      "learning_rate": 5e-05,
      "loss": 1.693,
      "step": 4284
    },
    {
      "epoch": 0.03836833602584814,
      "grad_norm": 0.24740885198116302,
      "learning_rate": 5e-05,
      "loss": 1.7233,
      "step": 4285
    },
    {
      "epoch": 0.038502961766289714,
      "grad_norm": 0.26671844720840454,
      "learning_rate": 5e-05,
      "loss": 1.899,
      "step": 4286
    },
    {
      "epoch": 0.03863758750673129,
      "grad_norm": 0.25380653142929077,
      "learning_rate": 5e-05,
      "loss": 1.842,
      "step": 4287
    },
    {
      "epoch": 0.03877221324717286,
      "grad_norm": 0.23140187561511993,
      "learning_rate": 5e-05,
      "loss": 1.7489,
      "step": 4288
    },
    {
      "epoch": 0.038906838987614434,
      "grad_norm": 0.239094540476799,
      "learning_rate": 5e-05,
      "loss": 1.7811,
      "step": 4289
    },
    {
      "epoch": 0.039041464728056,
      "grad_norm": 0.2541022002696991,
      "learning_rate": 5e-05,
      "loss": 2.0141,
      "step": 4290
    },
    {
      "epoch": 0.03917609046849758,
      "grad_norm": 0.2995625138282776,
      "learning_rate": 5e-05,
      "loss": 2.8283,
      "step": 4291
    },
    {
      "epoch": 0.039310716208939146,
      "grad_norm": 0.2589160203933716,
      "learning_rate": 5e-05,
      "loss": 1.9376,
      "step": 4292
    },
    {
      "epoch": 0.03944534194938072,
      "grad_norm": 0.2727802097797394,
      "learning_rate": 5e-05,
      "loss": 1.886,
      "step": 4293
    },
    {
      "epoch": 0.0395799676898223,
      "grad_norm": 0.26058951020240784,
      "learning_rate": 5e-05,
      "loss": 1.9763,
      "step": 4294
    },
    {
      "epoch": 0.039714593430263866,
      "grad_norm": 0.29894405603408813,
      "learning_rate": 5e-05,
      "loss": 2.1448,
      "step": 4295
    },
    {
      "epoch": 0.03984921917070544,
      "grad_norm": 0.29408079385757446,
      "learning_rate": 5e-05,
      "loss": 1.9619,
      "step": 4296
    },
    {
      "epoch": 0.03998384491114701,
      "grad_norm": 0.2760351598262787,
      "learning_rate": 5e-05,
      "loss": 2.2481,
      "step": 4297
    },
    {
      "epoch": 0.040118470651588585,
      "grad_norm": 0.26875004172325134,
      "learning_rate": 5e-05,
      "loss": 2.4035,
      "step": 4298
    },
    {
      "epoch": 0.040253096392030153,
      "grad_norm": 0.28397414088249207,
      "learning_rate": 5e-05,
      "loss": 2.5389,
      "step": 4299
    },
    {
      "epoch": 0.04038772213247173,
      "grad_norm": 0.24948157370090485,
      "learning_rate": 5e-05,
      "loss": 1.7432,
      "step": 4300
    },
    {
      "epoch": 0.040522347872913304,
      "grad_norm": 0.2344091832637787,
      "learning_rate": 5e-05,
      "loss": 1.5917,
      "step": 4301
    },
    {
      "epoch": 0.04065697361335487,
      "grad_norm": 0.2561291754245758,
      "learning_rate": 5e-05,
      "loss": 1.6156,
      "step": 4302
    },
    {
      "epoch": 0.04079159935379645,
      "grad_norm": 0.26042330265045166,
      "learning_rate": 5e-05,
      "loss": 2.093,
      "step": 4303
    },
    {
      "epoch": 0.04092622509423802,
      "grad_norm": 0.24031542241573334,
      "learning_rate": 5e-05,
      "loss": 1.8353,
      "step": 4304
    },
    {
      "epoch": 0.04106085083467959,
      "grad_norm": 0.30380719900131226,
      "learning_rate": 5e-05,
      "loss": 2.566,
      "step": 4305
    },
    {
      "epoch": 0.04119547657512116,
      "grad_norm": 0.2572767734527588,
      "learning_rate": 5e-05,
      "loss": 1.8543,
      "step": 4306
    },
    {
      "epoch": 0.041330102315562736,
      "grad_norm": 0.3818843364715576,
      "learning_rate": 5e-05,
      "loss": 2.2976,
      "step": 4307
    },
    {
      "epoch": 0.041464728056004305,
      "grad_norm": 0.24633309245109558,
      "learning_rate": 5e-05,
      "loss": 1.9645,
      "step": 4308
    },
    {
      "epoch": 0.04159935379644588,
      "grad_norm": 0.2648412585258484,
      "learning_rate": 5e-05,
      "loss": 1.9625,
      "step": 4309
    },
    {
      "epoch": 0.041733979536887456,
      "grad_norm": 0.27413517236709595,
      "learning_rate": 5e-05,
      "loss": 2.3348,
      "step": 4310
    },
    {
      "epoch": 0.041868605277329024,
      "grad_norm": 0.2594949007034302,
      "learning_rate": 5e-05,
      "loss": 2.1152,
      "step": 4311
    },
    {
      "epoch": 0.0420032310177706,
      "grad_norm": 0.2493361532688141,
      "learning_rate": 5e-05,
      "loss": 1.7607,
      "step": 4312
    },
    {
      "epoch": 0.04213785675821217,
      "grad_norm": 0.25184786319732666,
      "learning_rate": 5e-05,
      "loss": 1.8818,
      "step": 4313
    },
    {
      "epoch": 0.04227248249865374,
      "grad_norm": 0.2648918330669403,
      "learning_rate": 5e-05,
      "loss": 2.1788,
      "step": 4314
    },
    {
      "epoch": 0.04240710823909531,
      "grad_norm": 0.3120845854282379,
      "learning_rate": 5e-05,
      "loss": 2.7327,
      "step": 4315
    },
    {
      "epoch": 0.04254173397953689,
      "grad_norm": 0.26885294914245605,
      "learning_rate": 5e-05,
      "loss": 2.0501,
      "step": 4316
    },
    {
      "epoch": 0.04267635971997846,
      "grad_norm": 0.25331902503967285,
      "learning_rate": 5e-05,
      "loss": 2.0845,
      "step": 4317
    },
    {
      "epoch": 0.04281098546042003,
      "grad_norm": 0.2676343023777008,
      "learning_rate": 5e-05,
      "loss": 1.9775,
      "step": 4318
    },
    {
      "epoch": 0.04294561120086161,
      "grad_norm": 0.25099897384643555,
      "learning_rate": 5e-05,
      "loss": 2.1057,
      "step": 4319
    },
    {
      "epoch": 0.043080236941303175,
      "grad_norm": 0.4128982722759247,
      "learning_rate": 5e-05,
      "loss": 2.8101,
      "step": 4320
    },
    {
      "epoch": 0.04321486268174475,
      "grad_norm": 0.2658839523792267,
      "learning_rate": 5e-05,
      "loss": 1.9645,
      "step": 4321
    },
    {
      "epoch": 0.04334948842218632,
      "grad_norm": 0.2727210223674774,
      "learning_rate": 5e-05,
      "loss": 2.1147,
      "step": 4322
    },
    {
      "epoch": 0.043484114162627895,
      "grad_norm": 0.2501150965690613,
      "learning_rate": 5e-05,
      "loss": 1.9996,
      "step": 4323
    },
    {
      "epoch": 0.04361873990306947,
      "grad_norm": 0.2861579954624176,
      "learning_rate": 5e-05,
      "loss": 2.3816,
      "step": 4324
    },
    {
      "epoch": 0.04375336564351104,
      "grad_norm": 0.2695966958999634,
      "learning_rate": 5e-05,
      "loss": 2.1394,
      "step": 4325
    },
    {
      "epoch": 0.043887991383952614,
      "grad_norm": 0.25704100728034973,
      "learning_rate": 5e-05,
      "loss": 2.0115,
      "step": 4326
    },
    {
      "epoch": 0.04402261712439418,
      "grad_norm": 0.308402419090271,
      "learning_rate": 5e-05,
      "loss": 2.2285,
      "step": 4327
    },
    {
      "epoch": 0.04415724286483576,
      "grad_norm": 0.2733742892742157,
      "learning_rate": 5e-05,
      "loss": 1.9569,
      "step": 4328
    },
    {
      "epoch": 0.044291868605277326,
      "grad_norm": 0.26467064023017883,
      "learning_rate": 5e-05,
      "loss": 1.8531,
      "step": 4329
    },
    {
      "epoch": 0.0444264943457189,
      "grad_norm": 0.25224173069000244,
      "learning_rate": 5e-05,
      "loss": 2.0069,
      "step": 4330
    },
    {
      "epoch": 0.04456112008616048,
      "grad_norm": 0.2525802552700043,
      "learning_rate": 5e-05,
      "loss": 2.0104,
      "step": 4331
    },
    {
      "epoch": 0.044695745826602046,
      "grad_norm": 0.3445412814617157,
      "learning_rate": 5e-05,
      "loss": 3.0202,
      "step": 4332
    },
    {
      "epoch": 0.04483037156704362,
      "grad_norm": 0.29167649149894714,
      "learning_rate": 5e-05,
      "loss": 2.3889,
      "step": 4333
    },
    {
      "epoch": 0.04496499730748519,
      "grad_norm": 0.2973385453224182,
      "learning_rate": 5e-05,
      "loss": 1.9174,
      "step": 4334
    },
    {
      "epoch": 0.045099623047926765,
      "grad_norm": 0.32431796193122864,
      "learning_rate": 5e-05,
      "loss": 2.3203,
      "step": 4335
    },
    {
      "epoch": 0.045234248788368334,
      "grad_norm": 0.3885750472545624,
      "learning_rate": 5e-05,
      "loss": 3.2033,
      "step": 4336
    },
    {
      "epoch": 0.04536887452880991,
      "grad_norm": 0.2595519721508026,
      "learning_rate": 5e-05,
      "loss": 2.2057,
      "step": 4337
    },
    {
      "epoch": 0.04550350026925148,
      "grad_norm": 0.3646165728569031,
      "learning_rate": 5e-05,
      "loss": 3.1792,
      "step": 4338
    },
    {
      "epoch": 0.04563812600969305,
      "grad_norm": 0.26689958572387695,
      "learning_rate": 5e-05,
      "loss": 2.0889,
      "step": 4339
    },
    {
      "epoch": 0.04577275175013463,
      "grad_norm": 0.2691076099872589,
      "learning_rate": 5e-05,
      "loss": 1.8606,
      "step": 4340
    },
    {
      "epoch": 0.0459073774905762,
      "grad_norm": 0.4039416015148163,
      "learning_rate": 5e-05,
      "loss": 2.5607,
      "step": 4341
    },
    {
      "epoch": 0.04604200323101777,
      "grad_norm": 0.27678531408309937,
      "learning_rate": 5e-05,
      "loss": 1.8637,
      "step": 4342
    },
    {
      "epoch": 0.04617662897145934,
      "grad_norm": 0.29088306427001953,
      "learning_rate": 5e-05,
      "loss": 1.7086,
      "step": 4343
    },
    {
      "epoch": 0.046311254711900916,
      "grad_norm": 0.24936358630657196,
      "learning_rate": 5e-05,
      "loss": 1.8378,
      "step": 4344
    },
    {
      "epoch": 0.046445880452342485,
      "grad_norm": 0.25724494457244873,
      "learning_rate": 5e-05,
      "loss": 2.002,
      "step": 4345
    },
    {
      "epoch": 0.04658050619278406,
      "grad_norm": 0.2797641158103943,
      "learning_rate": 5e-05,
      "loss": 1.9959,
      "step": 4346
    },
    {
      "epoch": 0.046715131933225636,
      "grad_norm": 0.38344717025756836,
      "learning_rate": 5e-05,
      "loss": 2.8793,
      "step": 4347
    },
    {
      "epoch": 0.046849757673667204,
      "grad_norm": 0.32017219066619873,
      "learning_rate": 5e-05,
      "loss": 1.955,
      "step": 4348
    },
    {
      "epoch": 0.04698438341410878,
      "grad_norm": 0.3039388656616211,
      "learning_rate": 5e-05,
      "loss": 2.8077,
      "step": 4349
    },
    {
      "epoch": 0.04711900915455035,
      "grad_norm": 0.2712625563144684,
      "learning_rate": 5e-05,
      "loss": 1.8672,
      "step": 4350
    },
    {
      "epoch": 0.047253634894991924,
      "grad_norm": 0.25819623470306396,
      "learning_rate": 5e-05,
      "loss": 1.7125,
      "step": 4351
    },
    {
      "epoch": 0.04738826063543349,
      "grad_norm": 0.2659763693809509,
      "learning_rate": 5e-05,
      "loss": 2.0436,
      "step": 4352
    },
    {
      "epoch": 0.04752288637587507,
      "grad_norm": 0.25089725852012634,
      "learning_rate": 5e-05,
      "loss": 1.8786,
      "step": 4353
    },
    {
      "epoch": 0.04765751211631664,
      "grad_norm": 0.284289687871933,
      "learning_rate": 5e-05,
      "loss": 2.4767,
      "step": 4354
    },
    {
      "epoch": 0.04779213785675821,
      "grad_norm": 0.3049710988998413,
      "learning_rate": 5e-05,
      "loss": 2.3059,
      "step": 4355
    },
    {
      "epoch": 0.04792676359719979,
      "grad_norm": 0.25880321860313416,
      "learning_rate": 5e-05,
      "loss": 2.1875,
      "step": 4356
    },
    {
      "epoch": 0.048061389337641355,
      "grad_norm": 0.3304976224899292,
      "learning_rate": 5e-05,
      "loss": 2.4275,
      "step": 4357
    },
    {
      "epoch": 0.04819601507808293,
      "grad_norm": 0.2795979678630829,
      "learning_rate": 5e-05,
      "loss": 2.3016,
      "step": 4358
    },
    {
      "epoch": 0.0483306408185245,
      "grad_norm": 0.2463303953409195,
      "learning_rate": 5e-05,
      "loss": 1.8984,
      "step": 4359
    },
    {
      "epoch": 0.048465266558966075,
      "grad_norm": 0.2510443925857544,
      "learning_rate": 5e-05,
      "loss": 1.9011,
      "step": 4360
    },
    {
      "epoch": 0.04859989229940765,
      "grad_norm": 0.4194701611995697,
      "learning_rate": 5e-05,
      "loss": 3.4757,
      "step": 4361
    },
    {
      "epoch": 0.04873451803984922,
      "grad_norm": 0.2908802628517151,
      "learning_rate": 5e-05,
      "loss": 2.3241,
      "step": 4362
    },
    {
      "epoch": 0.048869143780290794,
      "grad_norm": 0.3049539625644684,
      "learning_rate": 5e-05,
      "loss": 2.1308,
      "step": 4363
    },
    {
      "epoch": 0.04900376952073236,
      "grad_norm": 0.2673260271549225,
      "learning_rate": 5e-05,
      "loss": 1.7913,
      "step": 4364
    },
    {
      "epoch": 0.04913839526117394,
      "grad_norm": 0.24297529458999634,
      "learning_rate": 5e-05,
      "loss": 1.8403,
      "step": 4365
    },
    {
      "epoch": 0.049273021001615507,
      "grad_norm": 0.2884814739227295,
      "learning_rate": 5e-05,
      "loss": 2.0759,
      "step": 4366
    },
    {
      "epoch": 0.04940764674205708,
      "grad_norm": 0.329082727432251,
      "learning_rate": 5e-05,
      "loss": 2.7949,
      "step": 4367
    },
    {
      "epoch": 0.04954227248249865,
      "grad_norm": 0.2588159739971161,
      "learning_rate": 5e-05,
      "loss": 1.8526,
      "step": 4368
    },
    {
      "epoch": 0.049676898222940226,
      "grad_norm": 0.3056235611438751,
      "learning_rate": 5e-05,
      "loss": 1.9619,
      "step": 4369
    },
    {
      "epoch": 0.0498115239633818,
      "grad_norm": 0.27136388421058655,
      "learning_rate": 5e-05,
      "loss": 1.8965,
      "step": 4370
    },
    {
      "epoch": 0.04994614970382337,
      "grad_norm": 0.27564194798469543,
      "learning_rate": 5e-05,
      "loss": 2.3803,
      "step": 4371
    },
    {
      "epoch": 0.050080775444264945,
      "grad_norm": 0.29348069429397583,
      "learning_rate": 5e-05,
      "loss": 2.6406,
      "step": 4372
    },
    {
      "epoch": 0.050215401184706514,
      "grad_norm": 0.24651265144348145,
      "learning_rate": 5e-05,
      "loss": 1.5943,
      "step": 4373
    },
    {
      "epoch": 0.05035002692514809,
      "grad_norm": 0.2564060389995575,
      "learning_rate": 5e-05,
      "loss": 1.6175,
      "step": 4374
    },
    {
      "epoch": 0.05048465266558966,
      "grad_norm": 0.27767324447631836,
      "learning_rate": 5e-05,
      "loss": 2.0721,
      "step": 4375
    },
    {
      "epoch": 0.05061927840603123,
      "grad_norm": 0.3677002489566803,
      "learning_rate": 5e-05,
      "loss": 2.9916,
      "step": 4376
    },
    {
      "epoch": 0.05075390414647281,
      "grad_norm": 0.2574070394039154,
      "learning_rate": 5e-05,
      "loss": 1.7153,
      "step": 4377
    },
    {
      "epoch": 0.05088852988691438,
      "grad_norm": 0.2595839500427246,
      "learning_rate": 5e-05,
      "loss": 1.8406,
      "step": 4378
    },
    {
      "epoch": 0.05102315562735595,
      "grad_norm": 0.30777156352996826,
      "learning_rate": 5e-05,
      "loss": 2.5659,
      "step": 4379
    },
    {
      "epoch": 0.05115778136779752,
      "grad_norm": 0.255797803401947,
      "learning_rate": 5e-05,
      "loss": 1.9409,
      "step": 4380
    },
    {
      "epoch": 0.051292407108239096,
      "grad_norm": 0.25588464736938477,
      "learning_rate": 5e-05,
      "loss": 2.0572,
      "step": 4381
    },
    {
      "epoch": 0.051427032848680665,
      "grad_norm": 0.2613358795642853,
      "learning_rate": 5e-05,
      "loss": 1.8757,
      "step": 4382
    },
    {
      "epoch": 0.05156165858912224,
      "grad_norm": 0.2684844434261322,
      "learning_rate": 5e-05,
      "loss": 1.9551,
      "step": 4383
    },
    {
      "epoch": 0.051696284329563816,
      "grad_norm": 0.26900529861450195,
      "learning_rate": 5e-05,
      "loss": 1.785,
      "step": 4384
    },
    {
      "epoch": 0.051830910070005384,
      "grad_norm": 0.2720629870891571,
      "learning_rate": 5e-05,
      "loss": 1.8266,
      "step": 4385
    },
    {
      "epoch": 0.05196553581044696,
      "grad_norm": 0.2693663239479065,
      "learning_rate": 5e-05,
      "loss": 2.3304,
      "step": 4386
    },
    {
      "epoch": 0.05210016155088853,
      "grad_norm": 0.2376621514558792,
      "learning_rate": 5e-05,
      "loss": 1.6986,
      "step": 4387
    },
    {
      "epoch": 0.052234787291330104,
      "grad_norm": 0.25203827023506165,
      "learning_rate": 5e-05,
      "loss": 1.6688,
      "step": 4388
    },
    {
      "epoch": 0.05236941303177167,
      "grad_norm": 0.27281680703163147,
      "learning_rate": 5e-05,
      "loss": 1.8357,
      "step": 4389
    },
    {
      "epoch": 0.05250403877221325,
      "grad_norm": 0.2878261208534241,
      "learning_rate": 5e-05,
      "loss": 2.1721,
      "step": 4390
    },
    {
      "epoch": 0.05263866451265482,
      "grad_norm": 0.31820666790008545,
      "learning_rate": 5e-05,
      "loss": 2.8619,
      "step": 4391
    },
    {
      "epoch": 0.05277329025309639,
      "grad_norm": 0.26056408882141113,
      "learning_rate": 5e-05,
      "loss": 1.887,
      "step": 4392
    },
    {
      "epoch": 0.05290791599353797,
      "grad_norm": 0.38876840472221375,
      "learning_rate": 5e-05,
      "loss": 2.7511,
      "step": 4393
    },
    {
      "epoch": 0.053042541733979535,
      "grad_norm": 0.2547549605369568,
      "learning_rate": 5e-05,
      "loss": 1.7309,
      "step": 4394
    },
    {
      "epoch": 0.05317716747442111,
      "grad_norm": 0.246332585811615,
      "learning_rate": 5e-05,
      "loss": 1.8791,
      "step": 4395
    },
    {
      "epoch": 0.05331179321486268,
      "grad_norm": 0.2580711841583252,
      "learning_rate": 5e-05,
      "loss": 2.0042,
      "step": 4396
    },
    {
      "epoch": 0.053446418955304255,
      "grad_norm": 0.2589719593524933,
      "learning_rate": 5e-05,
      "loss": 1.8994,
      "step": 4397
    },
    {
      "epoch": 0.05358104469574582,
      "grad_norm": 0.2873181104660034,
      "learning_rate": 5e-05,
      "loss": 1.7083,
      "step": 4398
    },
    {
      "epoch": 0.0537156704361874,
      "grad_norm": 0.26926133036613464,
      "learning_rate": 5e-05,
      "loss": 2.0036,
      "step": 4399
    },
    {
      "epoch": 0.053850296176628974,
      "grad_norm": 0.3418651819229126,
      "learning_rate": 5e-05,
      "loss": 2.7881,
      "step": 4400
    },
    {
      "epoch": 0.05398492191707054,
      "grad_norm": 0.26710912585258484,
      "learning_rate": 5e-05,
      "loss": 2.1958,
      "step": 4401
    },
    {
      "epoch": 0.05411954765751212,
      "grad_norm": 0.24912066757678986,
      "learning_rate": 5e-05,
      "loss": 1.7497,
      "step": 4402
    },
    {
      "epoch": 0.05425417339795369,
      "grad_norm": 0.29937225580215454,
      "learning_rate": 5e-05,
      "loss": 2.6376,
      "step": 4403
    },
    {
      "epoch": 0.05438879913839526,
      "grad_norm": 0.283342182636261,
      "learning_rate": 5e-05,
      "loss": 1.8916,
      "step": 4404
    },
    {
      "epoch": 0.05452342487883683,
      "grad_norm": 0.2695798873901367,
      "learning_rate": 5e-05,
      "loss": 1.895,
      "step": 4405
    },
    {
      "epoch": 0.054658050619278406,
      "grad_norm": 0.2683001458644867,
      "learning_rate": 5e-05,
      "loss": 2.3241,
      "step": 4406
    },
    {
      "epoch": 0.05479267635971998,
      "grad_norm": 0.2637018859386444,
      "learning_rate": 5e-05,
      "loss": 1.9937,
      "step": 4407
    },
    {
      "epoch": 0.05492730210016155,
      "grad_norm": 0.2626327574253082,
      "learning_rate": 5e-05,
      "loss": 1.9514,
      "step": 4408
    },
    {
      "epoch": 0.055061927840603125,
      "grad_norm": 0.26749470829963684,
      "learning_rate": 5e-05,
      "loss": 2.1472,
      "step": 4409
    },
    {
      "epoch": 0.055196553581044694,
      "grad_norm": 0.25542548298835754,
      "learning_rate": 5e-05,
      "loss": 1.6476,
      "step": 4410
    },
    {
      "epoch": 0.05533117932148627,
      "grad_norm": 0.25267547369003296,
      "learning_rate": 5e-05,
      "loss": 2.7945,
      "step": 4411
    },
    {
      "epoch": 0.05546580506192784,
      "grad_norm": 0.2875061333179474,
      "learning_rate": 5e-05,
      "loss": 2.1494,
      "step": 4412
    },
    {
      "epoch": 0.05560043080236941,
      "grad_norm": 0.2971176505088806,
      "learning_rate": 5e-05,
      "loss": 2.7632,
      "step": 4413
    },
    {
      "epoch": 0.05573505654281099,
      "grad_norm": 0.4182153642177582,
      "learning_rate": 5e-05,
      "loss": 2.514,
      "step": 4414
    },
    {
      "epoch": 0.05586968228325256,
      "grad_norm": 0.29114052653312683,
      "learning_rate": 5e-05,
      "loss": 2.1424,
      "step": 4415
    },
    {
      "epoch": 0.05600430802369413,
      "grad_norm": 0.29397907853126526,
      "learning_rate": 5e-05,
      "loss": 2.1649,
      "step": 4416
    },
    {
      "epoch": 0.0561389337641357,
      "grad_norm": 0.2396470606327057,
      "learning_rate": 5e-05,
      "loss": 1.5971,
      "step": 4417
    },
    {
      "epoch": 0.05627355950457728,
      "grad_norm": 0.3708409368991852,
      "learning_rate": 5e-05,
      "loss": 2.5,
      "step": 4418
    },
    {
      "epoch": 0.056408185245018845,
      "grad_norm": 0.24808619916439056,
      "learning_rate": 5e-05,
      "loss": 1.6657,
      "step": 4419
    },
    {
      "epoch": 0.05654281098546042,
      "grad_norm": 0.293387770652771,
      "learning_rate": 5e-05,
      "loss": 2.3777,
      "step": 4420
    },
    {
      "epoch": 0.05667743672590199,
      "grad_norm": 0.2610332667827606,
      "learning_rate": 5e-05,
      "loss": 1.9678,
      "step": 4421
    },
    {
      "epoch": 0.056812062466343564,
      "grad_norm": 0.2549959123134613,
      "learning_rate": 5e-05,
      "loss": 2.0262,
      "step": 4422
    },
    {
      "epoch": 0.05694668820678514,
      "grad_norm": 0.2524917721748352,
      "learning_rate": 5e-05,
      "loss": 1.7838,
      "step": 4423
    },
    {
      "epoch": 0.05708131394722671,
      "grad_norm": 0.2660125494003296,
      "learning_rate": 5e-05,
      "loss": 2.2878,
      "step": 4424
    },
    {
      "epoch": 0.057215939687668284,
      "grad_norm": 0.2576051354408264,
      "learning_rate": 5e-05,
      "loss": 1.782,
      "step": 4425
    },
    {
      "epoch": 0.05735056542810985,
      "grad_norm": 0.2593485713005066,
      "learning_rate": 5e-05,
      "loss": 1.8161,
      "step": 4426
    },
    {
      "epoch": 0.05748519116855143,
      "grad_norm": 0.2772836983203888,
      "learning_rate": 5e-05,
      "loss": 1.8413,
      "step": 4427
    },
    {
      "epoch": 0.057619816908992996,
      "grad_norm": 0.2651337683200836,
      "learning_rate": 5e-05,
      "loss": 2.0982,
      "step": 4428
    },
    {
      "epoch": 0.05775444264943457,
      "grad_norm": 0.26633039116859436,
      "learning_rate": 5e-05,
      "loss": 2.2022,
      "step": 4429
    },
    {
      "epoch": 0.05788906838987615,
      "grad_norm": 0.3103853166103363,
      "learning_rate": 5e-05,
      "loss": 2.4754,
      "step": 4430
    },
    {
      "epoch": 0.058023694130317716,
      "grad_norm": 0.3044198751449585,
      "learning_rate": 5e-05,
      "loss": 2.789,
      "step": 4431
    },
    {
      "epoch": 0.05815831987075929,
      "grad_norm": 0.30498284101486206,
      "learning_rate": 5e-05,
      "loss": 2.7203,
      "step": 4432
    },
    {
      "epoch": 0.05829294561120086,
      "grad_norm": 0.2950437664985657,
      "learning_rate": 5e-05,
      "loss": 2.7206,
      "step": 4433
    },
    {
      "epoch": 0.058427571351642435,
      "grad_norm": 0.4001471996307373,
      "learning_rate": 5e-05,
      "loss": 2.2907,
      "step": 4434
    },
    {
      "epoch": 0.058562197092084003,
      "grad_norm": 0.26517027616500854,
      "learning_rate": 5e-05,
      "loss": 2.0667,
      "step": 4435
    },
    {
      "epoch": 0.05869682283252558,
      "grad_norm": 0.2781837582588196,
      "learning_rate": 5e-05,
      "loss": 2.2847,
      "step": 4436
    },
    {
      "epoch": 0.058831448572967154,
      "grad_norm": 0.2476690709590912,
      "learning_rate": 5e-05,
      "loss": 1.6723,
      "step": 4437
    },
    {
      "epoch": 0.05896607431340872,
      "grad_norm": 0.2646486163139343,
      "learning_rate": 5e-05,
      "loss": 1.6514,
      "step": 4438
    },
    {
      "epoch": 0.0591007000538503,
      "grad_norm": 0.3872821629047394,
      "learning_rate": 5e-05,
      "loss": 2.8018,
      "step": 4439
    },
    {
      "epoch": 0.05923532579429187,
      "grad_norm": 0.2632550597190857,
      "learning_rate": 5e-05,
      "loss": 2.4262,
      "step": 4440
    },
    {
      "epoch": 0.05936995153473344,
      "grad_norm": 0.2867524325847626,
      "learning_rate": 5e-05,
      "loss": 1.9662,
      "step": 4441
    },
    {
      "epoch": 0.05950457727517501,
      "grad_norm": 0.3084189295768738,
      "learning_rate": 5e-05,
      "loss": 2.6098,
      "step": 4442
    },
    {
      "epoch": 0.059639203015616586,
      "grad_norm": 0.3989610970020294,
      "learning_rate": 5e-05,
      "loss": 2.9892,
      "step": 4443
    },
    {
      "epoch": 0.05977382875605816,
      "grad_norm": 0.3516387939453125,
      "learning_rate": 5e-05,
      "loss": 2.4675,
      "step": 4444
    },
    {
      "epoch": 0.05990845449649973,
      "grad_norm": 0.2649051249027252,
      "learning_rate": 5e-05,
      "loss": 1.7781,
      "step": 4445
    },
    {
      "epoch": 0.060043080236941306,
      "grad_norm": 0.2834852635860443,
      "learning_rate": 5e-05,
      "loss": 1.9797,
      "step": 4446
    },
    {
      "epoch": 0.060177705977382874,
      "grad_norm": 0.2448086142539978,
      "learning_rate": 5e-05,
      "loss": 1.5572,
      "step": 4447
    },
    {
      "epoch": 0.06031233171782445,
      "grad_norm": 0.5156062245368958,
      "learning_rate": 5e-05,
      "loss": 2.698,
      "step": 4448
    },
    {
      "epoch": 0.06044695745826602,
      "grad_norm": 0.24249647557735443,
      "learning_rate": 5e-05,
      "loss": 1.7235,
      "step": 4449
    },
    {
      "epoch": 0.06058158319870759,
      "grad_norm": 0.2601940631866455,
      "learning_rate": 5e-05,
      "loss": 1.725,
      "step": 4450
    },
    {
      "epoch": 0.06071620893914916,
      "grad_norm": 0.43496450781822205,
      "learning_rate": 5e-05,
      "loss": 2.929,
      "step": 4451
    },
    {
      "epoch": 0.06085083467959074,
      "grad_norm": 0.27095064520835876,
      "learning_rate": 5e-05,
      "loss": 1.8715,
      "step": 4452
    },
    {
      "epoch": 0.06098546042003231,
      "grad_norm": 0.31764981150627136,
      "learning_rate": 5e-05,
      "loss": 3.0831,
      "step": 4453
    },
    {
      "epoch": 0.06112008616047388,
      "grad_norm": 0.30674538016319275,
      "learning_rate": 5e-05,
      "loss": 2.1081,
      "step": 4454
    },
    {
      "epoch": 0.06125471190091546,
      "grad_norm": 0.26509058475494385,
      "learning_rate": 5e-05,
      "loss": 1.8998,
      "step": 4455
    },
    {
      "epoch": 0.061389337641357025,
      "grad_norm": 0.29305070638656616,
      "learning_rate": 5e-05,
      "loss": 1.8682,
      "step": 4456
    },
    {
      "epoch": 0.0615239633817986,
      "grad_norm": 0.27880483865737915,
      "learning_rate": 5e-05,
      "loss": 1.9727,
      "step": 4457
    },
    {
      "epoch": 0.06165858912224017,
      "grad_norm": 0.2996273636817932,
      "learning_rate": 5e-05,
      "loss": 2.0335,
      "step": 4458
    },
    {
      "epoch": 0.061793214862681745,
      "grad_norm": 0.253142774105072,
      "learning_rate": 5e-05,
      "loss": 1.7377,
      "step": 4459
    },
    {
      "epoch": 0.06192784060312332,
      "grad_norm": 0.2589077949523926,
      "learning_rate": 5e-05,
      "loss": 2.0629,
      "step": 4460
    },
    {
      "epoch": 0.06206246634356489,
      "grad_norm": 0.2858779728412628,
      "learning_rate": 5e-05,
      "loss": 2.7905,
      "step": 4461
    },
    {
      "epoch": 0.062197092084006464,
      "grad_norm": 0.26739269495010376,
      "learning_rate": 5e-05,
      "loss": 1.876,
      "step": 4462
    },
    {
      "epoch": 0.06233171782444803,
      "grad_norm": 0.2608213722705841,
      "learning_rate": 5e-05,
      "loss": 1.8708,
      "step": 4463
    },
    {
      "epoch": 0.06246634356488961,
      "grad_norm": 0.24923238158226013,
      "learning_rate": 5e-05,
      "loss": 1.7391,
      "step": 4464
    },
    {
      "epoch": 0.06260096930533118,
      "grad_norm": 0.24368947744369507,
      "learning_rate": 5e-05,
      "loss": 1.6522,
      "step": 4465
    },
    {
      "epoch": 0.06273559504577275,
      "grad_norm": 0.250633180141449,
      "learning_rate": 5e-05,
      "loss": 1.8653,
      "step": 4466
    },
    {
      "epoch": 0.06287022078621432,
      "grad_norm": 0.2708282172679901,
      "learning_rate": 5e-05,
      "loss": 2.0146,
      "step": 4467
    },
    {
      "epoch": 0.0630048465266559,
      "grad_norm": 0.2975923418998718,
      "learning_rate": 5e-05,
      "loss": 2.2673,
      "step": 4468
    },
    {
      "epoch": 0.06313947226709747,
      "grad_norm": 0.3598260283470154,
      "learning_rate": 5e-05,
      "loss": 2.8021,
      "step": 4469
    },
    {
      "epoch": 0.06327409800753904,
      "grad_norm": 0.2924863398075104,
      "learning_rate": 5e-05,
      "loss": 1.8794,
      "step": 4470
    },
    {
      "epoch": 0.06340872374798061,
      "grad_norm": 0.25128477811813354,
      "learning_rate": 5e-05,
      "loss": 2.0104,
      "step": 4471
    },
    {
      "epoch": 0.06354334948842219,
      "grad_norm": 0.3870033919811249,
      "learning_rate": 5e-05,
      "loss": 2.3989,
      "step": 4472
    },
    {
      "epoch": 0.06367797522886376,
      "grad_norm": 0.2786262333393097,
      "learning_rate": 5e-05,
      "loss": 1.8303,
      "step": 4473
    },
    {
      "epoch": 0.06381260096930533,
      "grad_norm": 0.2712293863296509,
      "learning_rate": 5e-05,
      "loss": 2.7225,
      "step": 4474
    },
    {
      "epoch": 0.06394722670974691,
      "grad_norm": 0.32023298740386963,
      "learning_rate": 5e-05,
      "loss": 2.0761,
      "step": 4475
    },
    {
      "epoch": 0.06408185245018848,
      "grad_norm": 0.2557823061943054,
      "learning_rate": 5e-05,
      "loss": 1.769,
      "step": 4476
    },
    {
      "epoch": 0.06421647819063005,
      "grad_norm": 0.37522611021995544,
      "learning_rate": 5e-05,
      "loss": 3.1292,
      "step": 4477
    },
    {
      "epoch": 0.06435110393107162,
      "grad_norm": 0.3006359934806824,
      "learning_rate": 5e-05,
      "loss": 2.8958,
      "step": 4478
    },
    {
      "epoch": 0.0644857296715132,
      "grad_norm": 0.26897647976875305,
      "learning_rate": 5e-05,
      "loss": 1.8527,
      "step": 4479
    },
    {
      "epoch": 0.06462035541195477,
      "grad_norm": 0.3026522397994995,
      "learning_rate": 5e-05,
      "loss": 2.3391,
      "step": 4480
    },
    {
      "epoch": 0.06475498115239633,
      "grad_norm": 0.2596476376056671,
      "learning_rate": 5e-05,
      "loss": 1.8111,
      "step": 4481
    },
    {
      "epoch": 0.06488960689283792,
      "grad_norm": 0.25275522470474243,
      "learning_rate": 5e-05,
      "loss": 1.6901,
      "step": 4482
    },
    {
      "epoch": 0.06502423263327949,
      "grad_norm": 0.3073785603046417,
      "learning_rate": 5e-05,
      "loss": 2.1423,
      "step": 4483
    },
    {
      "epoch": 0.06515885837372105,
      "grad_norm": 0.25270262360572815,
      "learning_rate": 5e-05,
      "loss": 1.8187,
      "step": 4484
    },
    {
      "epoch": 0.06529348411416262,
      "grad_norm": 0.2514885663986206,
      "learning_rate": 5e-05,
      "loss": 2.0361,
      "step": 4485
    },
    {
      "epoch": 0.0654281098546042,
      "grad_norm": 0.25280627608299255,
      "learning_rate": 5e-05,
      "loss": 1.9487,
      "step": 4486
    },
    {
      "epoch": 0.06556273559504577,
      "grad_norm": 0.24884359538555145,
      "learning_rate": 5e-05,
      "loss": 1.6444,
      "step": 4487
    },
    {
      "epoch": 0.06569736133548734,
      "grad_norm": 0.2635287344455719,
      "learning_rate": 5e-05,
      "loss": 2.1504,
      "step": 4488
    },
    {
      "epoch": 0.06583198707592892,
      "grad_norm": 0.30866193771362305,
      "learning_rate": 5e-05,
      "loss": 2.6182,
      "step": 4489
    },
    {
      "epoch": 0.06596661281637049,
      "grad_norm": 0.25142982602119446,
      "learning_rate": 5e-05,
      "loss": 1.6934,
      "step": 4490
    },
    {
      "epoch": 0.06610123855681206,
      "grad_norm": 0.2612784206867218,
      "learning_rate": 5e-05,
      "loss": 1.9772,
      "step": 4491
    },
    {
      "epoch": 0.06623586429725363,
      "grad_norm": 0.24037179350852966,
      "learning_rate": 5e-05,
      "loss": 1.7283,
      "step": 4492
    },
    {
      "epoch": 0.06637049003769521,
      "grad_norm": 0.2778708040714264,
      "learning_rate": 5e-05,
      "loss": 2.0516,
      "step": 4493
    },
    {
      "epoch": 0.06650511577813678,
      "grad_norm": 0.24424432218074799,
      "learning_rate": 5e-05,
      "loss": 1.9095,
      "step": 4494
    },
    {
      "epoch": 0.06663974151857835,
      "grad_norm": 0.23919282853603363,
      "learning_rate": 5e-05,
      "loss": 1.7331,
      "step": 4495
    },
    {
      "epoch": 0.06677436725901992,
      "grad_norm": 0.2981235682964325,
      "learning_rate": 5e-05,
      "loss": 2.014,
      "step": 4496
    },
    {
      "epoch": 0.0669089929994615,
      "grad_norm": 0.25082719326019287,
      "learning_rate": 5e-05,
      "loss": 1.7286,
      "step": 4497
    },
    {
      "epoch": 0.06704361873990307,
      "grad_norm": 0.2543795108795166,
      "learning_rate": 5e-05,
      "loss": 1.5724,
      "step": 4498
    },
    {
      "epoch": 0.06717824448034464,
      "grad_norm": 0.24976494908332825,
      "learning_rate": 5e-05,
      "loss": 1.8057,
      "step": 4499
    },
    {
      "epoch": 0.06731287022078622,
      "grad_norm": 0.24604786932468414,
      "learning_rate": 5e-05,
      "loss": 1.7555,
      "step": 4500
    },
    {
      "epoch": 0.06744749596122779,
      "grad_norm": 0.2565867006778717,
      "learning_rate": 5e-05,
      "loss": 1.646,
      "step": 4501
    },
    {
      "epoch": 0.06758212170166936,
      "grad_norm": 0.5516830682754517,
      "learning_rate": 5e-05,
      "loss": 2.7654,
      "step": 4502
    },
    {
      "epoch": 0.06771674744211093,
      "grad_norm": 0.3247295320034027,
      "learning_rate": 5e-05,
      "loss": 2.5784,
      "step": 4503
    },
    {
      "epoch": 0.06785137318255251,
      "grad_norm": 0.2696477770805359,
      "learning_rate": 5e-05,
      "loss": 1.8305,
      "step": 4504
    },
    {
      "epoch": 0.06798599892299408,
      "grad_norm": 0.2816808819770813,
      "learning_rate": 5e-05,
      "loss": 1.9958,
      "step": 4505
    },
    {
      "epoch": 0.06812062466343564,
      "grad_norm": 0.28872743248939514,
      "learning_rate": 5e-05,
      "loss": 1.9513,
      "step": 4506
    },
    {
      "epoch": 0.06825525040387723,
      "grad_norm": 0.4105498194694519,
      "learning_rate": 5e-05,
      "loss": 1.7857,
      "step": 4507
    },
    {
      "epoch": 0.0683898761443188,
      "grad_norm": 0.35438400506973267,
      "learning_rate": 5e-05,
      "loss": 2.8504,
      "step": 4508
    },
    {
      "epoch": 0.06852450188476036,
      "grad_norm": 0.26235634088516235,
      "learning_rate": 5e-05,
      "loss": 2.0211,
      "step": 4509
    },
    {
      "epoch": 0.06865912762520193,
      "grad_norm": 0.310494989156723,
      "learning_rate": 5e-05,
      "loss": 2.4154,
      "step": 4510
    },
    {
      "epoch": 0.06879375336564351,
      "grad_norm": 0.29627206921577454,
      "learning_rate": 5e-05,
      "loss": 2.5642,
      "step": 4511
    },
    {
      "epoch": 0.06892837910608508,
      "grad_norm": 0.24827158451080322,
      "learning_rate": 5e-05,
      "loss": 1.6558,
      "step": 4512
    },
    {
      "epoch": 0.06906300484652665,
      "grad_norm": 0.28078407049179077,
      "learning_rate": 5e-05,
      "loss": 2.0663,
      "step": 4513
    },
    {
      "epoch": 0.06919763058696823,
      "grad_norm": 0.2656520903110504,
      "learning_rate": 5e-05,
      "loss": 1.7955,
      "step": 4514
    },
    {
      "epoch": 0.0693322563274098,
      "grad_norm": 0.25506144762039185,
      "learning_rate": 5e-05,
      "loss": 1.6696,
      "step": 4515
    },
    {
      "epoch": 0.06946688206785137,
      "grad_norm": 0.27514219284057617,
      "learning_rate": 5e-05,
      "loss": 2.2485,
      "step": 4516
    },
    {
      "epoch": 0.06960150780829294,
      "grad_norm": 0.3553295135498047,
      "learning_rate": 5e-05,
      "loss": 2.947,
      "step": 4517
    },
    {
      "epoch": 0.06973613354873452,
      "grad_norm": 0.2792157232761383,
      "learning_rate": 5e-05,
      "loss": 1.8026,
      "step": 4518
    },
    {
      "epoch": 0.06987075928917609,
      "grad_norm": 0.28760677576065063,
      "learning_rate": 5e-05,
      "loss": 1.7284,
      "step": 4519
    },
    {
      "epoch": 0.07000538502961766,
      "grad_norm": 0.2767215371131897,
      "learning_rate": 5e-05,
      "loss": 1.6244,
      "step": 4520
    },
    {
      "epoch": 0.07014001077005924,
      "grad_norm": 0.3286081552505493,
      "learning_rate": 5e-05,
      "loss": 2.3914,
      "step": 4521
    },
    {
      "epoch": 0.07027463651050081,
      "grad_norm": 0.2816024124622345,
      "learning_rate": 5e-05,
      "loss": 1.786,
      "step": 4522
    },
    {
      "epoch": 0.07040926225094238,
      "grad_norm": 0.24759769439697266,
      "learning_rate": 5e-05,
      "loss": 1.886,
      "step": 4523
    },
    {
      "epoch": 0.07054388799138395,
      "grad_norm": 0.37012991309165955,
      "learning_rate": 5e-05,
      "loss": 2.7768,
      "step": 4524
    },
    {
      "epoch": 0.07067851373182553,
      "grad_norm": 0.2759629786014557,
      "learning_rate": 5e-05,
      "loss": 2.7638,
      "step": 4525
    },
    {
      "epoch": 0.0708131394722671,
      "grad_norm": 0.31035444140434265,
      "learning_rate": 5e-05,
      "loss": 2.7113,
      "step": 4526
    },
    {
      "epoch": 0.07094776521270867,
      "grad_norm": 0.3072775900363922,
      "learning_rate": 5e-05,
      "loss": 2.5462,
      "step": 4527
    },
    {
      "epoch": 0.07108239095315025,
      "grad_norm": 0.2539927065372467,
      "learning_rate": 5e-05,
      "loss": 1.7345,
      "step": 4528
    },
    {
      "epoch": 0.07121701669359182,
      "grad_norm": 0.25298139452934265,
      "learning_rate": 5e-05,
      "loss": 1.5118,
      "step": 4529
    },
    {
      "epoch": 0.07135164243403339,
      "grad_norm": 0.2770894169807434,
      "learning_rate": 5e-05,
      "loss": 1.7161,
      "step": 4530
    },
    {
      "epoch": 0.07148626817447495,
      "grad_norm": 0.31255677342414856,
      "learning_rate": 5e-05,
      "loss": 1.9893,
      "step": 4531
    },
    {
      "epoch": 0.07162089391491654,
      "grad_norm": 0.2889765501022339,
      "learning_rate": 5e-05,
      "loss": 1.774,
      "step": 4532
    },
    {
      "epoch": 0.0717555196553581,
      "grad_norm": 0.2526704967021942,
      "learning_rate": 5e-05,
      "loss": 1.7383,
      "step": 4533
    },
    {
      "epoch": 0.07189014539579967,
      "grad_norm": 0.309928834438324,
      "learning_rate": 5e-05,
      "loss": 2.646,
      "step": 4534
    },
    {
      "epoch": 0.07202477113624126,
      "grad_norm": 0.28041455149650574,
      "learning_rate": 5e-05,
      "loss": 1.9454,
      "step": 4535
    },
    {
      "epoch": 0.07215939687668282,
      "grad_norm": 0.2618592381477356,
      "learning_rate": 5e-05,
      "loss": 1.9225,
      "step": 4536
    },
    {
      "epoch": 0.07229402261712439,
      "grad_norm": 0.2891571819782257,
      "learning_rate": 5e-05,
      "loss": 1.9942,
      "step": 4537
    },
    {
      "epoch": 0.07242864835756596,
      "grad_norm": 0.24998390674591064,
      "learning_rate": 5e-05,
      "loss": 1.8188,
      "step": 4538
    },
    {
      "epoch": 0.07256327409800754,
      "grad_norm": 0.32126837968826294,
      "learning_rate": 5e-05,
      "loss": 2.5557,
      "step": 4539
    },
    {
      "epoch": 0.07269789983844911,
      "grad_norm": 0.2844569981098175,
      "learning_rate": 5e-05,
      "loss": 1.983,
      "step": 4540
    },
    {
      "epoch": 0.07283252557889068,
      "grad_norm": 0.2644857168197632,
      "learning_rate": 5e-05,
      "loss": 2.2607,
      "step": 4541
    },
    {
      "epoch": 0.07296715131933226,
      "grad_norm": 0.2652476727962494,
      "learning_rate": 5e-05,
      "loss": 2.3115,
      "step": 4542
    },
    {
      "epoch": 0.07310177705977383,
      "grad_norm": 0.29553231596946716,
      "learning_rate": 5e-05,
      "loss": 1.5872,
      "step": 4543
    },
    {
      "epoch": 0.0732364028002154,
      "grad_norm": 0.24679657816886902,
      "learning_rate": 5e-05,
      "loss": 1.8108,
      "step": 4544
    },
    {
      "epoch": 0.07337102854065697,
      "grad_norm": 0.2603027820587158,
      "learning_rate": 5e-05,
      "loss": 1.8518,
      "step": 4545
    },
    {
      "epoch": 0.07350565428109855,
      "grad_norm": 0.25616273283958435,
      "learning_rate": 5e-05,
      "loss": 1.9044,
      "step": 4546
    },
    {
      "epoch": 0.07364028002154012,
      "grad_norm": 0.2792048454284668,
      "learning_rate": 5e-05,
      "loss": 2.0061,
      "step": 4547
    },
    {
      "epoch": 0.07377490576198169,
      "grad_norm": 0.32795801758766174,
      "learning_rate": 5e-05,
      "loss": 2.6876,
      "step": 4548
    },
    {
      "epoch": 0.07390953150242327,
      "grad_norm": 0.26485827565193176,
      "learning_rate": 5e-05,
      "loss": 1.8192,
      "step": 4549
    },
    {
      "epoch": 0.07404415724286484,
      "grad_norm": 0.2601134479045868,
      "learning_rate": 5e-05,
      "loss": 1.8167,
      "step": 4550
    },
    {
      "epoch": 0.07417878298330641,
      "grad_norm": 0.25161662697792053,
      "learning_rate": 5e-05,
      "loss": 1.9259,
      "step": 4551
    },
    {
      "epoch": 0.07431340872374798,
      "grad_norm": 0.29714199900627136,
      "learning_rate": 5e-05,
      "loss": 2.5789,
      "step": 4552
    },
    {
      "epoch": 0.07444803446418956,
      "grad_norm": 0.2501329481601715,
      "learning_rate": 5e-05,
      "loss": 1.9333,
      "step": 4553
    },
    {
      "epoch": 0.07458266020463113,
      "grad_norm": 0.3351643979549408,
      "learning_rate": 5e-05,
      "loss": 2.7655,
      "step": 4554
    },
    {
      "epoch": 0.0747172859450727,
      "grad_norm": 0.2547950744628906,
      "learning_rate": 5e-05,
      "loss": 1.7952,
      "step": 4555
    },
    {
      "epoch": 0.07485191168551426,
      "grad_norm": 0.2757568955421448,
      "learning_rate": 5e-05,
      "loss": 2.0883,
      "step": 4556
    },
    {
      "epoch": 0.07498653742595585,
      "grad_norm": 0.2948606312274933,
      "learning_rate": 5e-05,
      "loss": 2.5106,
      "step": 4557
    },
    {
      "epoch": 0.07512116316639741,
      "grad_norm": 0.2689157724380493,
      "learning_rate": 5e-05,
      "loss": 2.1604,
      "step": 4558
    },
    {
      "epoch": 0.07525578890683898,
      "grad_norm": 0.2531439960002899,
      "learning_rate": 5e-05,
      "loss": 2.1731,
      "step": 4559
    },
    {
      "epoch": 0.07539041464728057,
      "grad_norm": 0.2687561511993408,
      "learning_rate": 5e-05,
      "loss": 1.9091,
      "step": 4560
    },
    {
      "epoch": 0.07552504038772213,
      "grad_norm": 0.32495543360710144,
      "learning_rate": 5e-05,
      "loss": 2.5276,
      "step": 4561
    },
    {
      "epoch": 0.0756596661281637,
      "grad_norm": 0.25051191449165344,
      "learning_rate": 5e-05,
      "loss": 1.7654,
      "step": 4562
    },
    {
      "epoch": 0.07579429186860527,
      "grad_norm": 0.2501222789287567,
      "learning_rate": 5e-05,
      "loss": 1.799,
      "step": 4563
    },
    {
      "epoch": 0.07592891760904685,
      "grad_norm": 0.3073113262653351,
      "learning_rate": 5e-05,
      "loss": 2.4165,
      "step": 4564
    },
    {
      "epoch": 0.07606354334948842,
      "grad_norm": 0.2547641098499298,
      "learning_rate": 5e-05,
      "loss": 1.6102,
      "step": 4565
    },
    {
      "epoch": 0.07619816908992999,
      "grad_norm": 0.2652347981929779,
      "learning_rate": 5e-05,
      "loss": 1.6489,
      "step": 4566
    },
    {
      "epoch": 0.07633279483037157,
      "grad_norm": 0.25076529383659363,
      "learning_rate": 5e-05,
      "loss": 1.8372,
      "step": 4567
    },
    {
      "epoch": 0.07646742057081314,
      "grad_norm": 0.28511860966682434,
      "learning_rate": 5e-05,
      "loss": 1.9626,
      "step": 4568
    },
    {
      "epoch": 0.07660204631125471,
      "grad_norm": 0.281613826751709,
      "learning_rate": 5e-05,
      "loss": 2.0823,
      "step": 4569
    },
    {
      "epoch": 0.07673667205169628,
      "grad_norm": 0.3056134283542633,
      "learning_rate": 5e-05,
      "loss": 2.2467,
      "step": 4570
    },
    {
      "epoch": 0.07687129779213786,
      "grad_norm": 0.257386714220047,
      "learning_rate": 5e-05,
      "loss": 1.7521,
      "step": 4571
    },
    {
      "epoch": 0.07700592353257943,
      "grad_norm": 0.27414777874946594,
      "learning_rate": 5e-05,
      "loss": 1.6692,
      "step": 4572
    },
    {
      "epoch": 0.077140549273021,
      "grad_norm": 0.2683851718902588,
      "learning_rate": 5e-05,
      "loss": 1.688,
      "step": 4573
    },
    {
      "epoch": 0.07727517501346258,
      "grad_norm": 0.2741832137107849,
      "learning_rate": 5e-05,
      "loss": 1.8162,
      "step": 4574
    },
    {
      "epoch": 0.07740980075390415,
      "grad_norm": 0.265654981136322,
      "learning_rate": 5e-05,
      "loss": 2.3135,
      "step": 4575
    },
    {
      "epoch": 0.07754442649434572,
      "grad_norm": 0.2629900872707367,
      "learning_rate": 5e-05,
      "loss": 2.0348,
      "step": 4576
    },
    {
      "epoch": 0.07767905223478729,
      "grad_norm": 0.25436708331108093,
      "learning_rate": 5e-05,
      "loss": 1.9692,
      "step": 4577
    },
    {
      "epoch": 0.07781367797522887,
      "grad_norm": 0.32045257091522217,
      "learning_rate": 5e-05,
      "loss": 2.7627,
      "step": 4578
    },
    {
      "epoch": 0.07794830371567044,
      "grad_norm": 0.27392351627349854,
      "learning_rate": 5e-05,
      "loss": 1.9427,
      "step": 4579
    },
    {
      "epoch": 0.078082929456112,
      "grad_norm": 0.3189758062362671,
      "learning_rate": 5e-05,
      "loss": 2.8064,
      "step": 4580
    },
    {
      "epoch": 0.07821755519655359,
      "grad_norm": 0.2702356278896332,
      "learning_rate": 5e-05,
      "loss": 1.8757,
      "step": 4581
    },
    {
      "epoch": 0.07835218093699516,
      "grad_norm": 0.26883798837661743,
      "learning_rate": 5e-05,
      "loss": 2.1741,
      "step": 4582
    },
    {
      "epoch": 0.07848680667743672,
      "grad_norm": 0.2922968864440918,
      "learning_rate": 5e-05,
      "loss": 2.5041,
      "step": 4583
    },
    {
      "epoch": 0.07862143241787829,
      "grad_norm": 0.27734798192977905,
      "learning_rate": 5e-05,
      "loss": 2.4564,
      "step": 4584
    },
    {
      "epoch": 0.07875605815831987,
      "grad_norm": 0.2967970371246338,
      "learning_rate": 5e-05,
      "loss": 3.1762,
      "step": 4585
    },
    {
      "epoch": 0.07889068389876144,
      "grad_norm": 0.2612583041191101,
      "learning_rate": 5e-05,
      "loss": 1.9168,
      "step": 4586
    },
    {
      "epoch": 0.07902530963920301,
      "grad_norm": 0.3025280833244324,
      "learning_rate": 5e-05,
      "loss": 2.1354,
      "step": 4587
    },
    {
      "epoch": 0.0791599353796446,
      "grad_norm": 0.26161324977874756,
      "learning_rate": 5e-05,
      "loss": 1.9277,
      "step": 4588
    },
    {
      "epoch": 0.07929456112008616,
      "grad_norm": 0.2690204679965973,
      "learning_rate": 5e-05,
      "loss": 1.9595,
      "step": 4589
    },
    {
      "epoch": 0.07942918686052773,
      "grad_norm": 0.2591373026371002,
      "learning_rate": 5e-05,
      "loss": 2.0894,
      "step": 4590
    },
    {
      "epoch": 0.0795638126009693,
      "grad_norm": 0.36948081851005554,
      "learning_rate": 5e-05,
      "loss": 2.748,
      "step": 4591
    },
    {
      "epoch": 0.07969843834141088,
      "grad_norm": 0.2948641777038574,
      "learning_rate": 5e-05,
      "loss": 1.8146,
      "step": 4592
    },
    {
      "epoch": 0.07983306408185245,
      "grad_norm": 0.28446030616760254,
      "learning_rate": 5e-05,
      "loss": 1.828,
      "step": 4593
    },
    {
      "epoch": 0.07996768982229402,
      "grad_norm": 0.2604060769081116,
      "learning_rate": 5e-05,
      "loss": 1.8486,
      "step": 4594
    },
    {
      "epoch": 0.0801023155627356,
      "grad_norm": 0.3033040463924408,
      "learning_rate": 5e-05,
      "loss": 2.4536,
      "step": 4595
    },
    {
      "epoch": 0.08023694130317717,
      "grad_norm": 0.28303027153015137,
      "learning_rate": 5e-05,
      "loss": 2.0412,
      "step": 4596
    },
    {
      "epoch": 0.08037156704361874,
      "grad_norm": 0.26181668043136597,
      "learning_rate": 5e-05,
      "loss": 2.0658,
      "step": 4597
    },
    {
      "epoch": 0.08050619278406031,
      "grad_norm": 0.25937923789024353,
      "learning_rate": 5e-05,
      "loss": 1.8352,
      "step": 4598
    },
    {
      "epoch": 0.08064081852450189,
      "grad_norm": 0.24054421484470367,
      "learning_rate": 5e-05,
      "loss": 1.7684,
      "step": 4599
    },
    {
      "epoch": 0.08077544426494346,
      "grad_norm": 0.38160279393196106,
      "learning_rate": 5e-05,
      "loss": 2.4779,
      "step": 4600
    },
    {
      "epoch": 0.08091007000538503,
      "grad_norm": 0.2665877044200897,
      "learning_rate": 5e-05,
      "loss": 1.9029,
      "step": 4601
    },
    {
      "epoch": 0.08104469574582661,
      "grad_norm": 0.26122936606407166,
      "learning_rate": 5e-05,
      "loss": 2.0782,
      "step": 4602
    },
    {
      "epoch": 0.08117932148626818,
      "grad_norm": 0.26947131752967834,
      "learning_rate": 5e-05,
      "loss": 2.3481,
      "step": 4603
    },
    {
      "epoch": 0.08131394722670975,
      "grad_norm": 0.2590753436088562,
      "learning_rate": 5e-05,
      "loss": 1.7084,
      "step": 4604
    },
    {
      "epoch": 0.08144857296715131,
      "grad_norm": 0.29339396953582764,
      "learning_rate": 5e-05,
      "loss": 2.1993,
      "step": 4605
    },
    {
      "epoch": 0.0815831987075929,
      "grad_norm": 0.2550746202468872,
      "learning_rate": 5e-05,
      "loss": 1.8875,
      "step": 4606
    },
    {
      "epoch": 0.08171782444803447,
      "grad_norm": 0.2570558190345764,
      "learning_rate": 5e-05,
      "loss": 1.9155,
      "step": 4607
    },
    {
      "epoch": 0.08185245018847603,
      "grad_norm": 0.275646835565567,
      "learning_rate": 5e-05,
      "loss": 2.0198,
      "step": 4608
    },
    {
      "epoch": 0.08198707592891762,
      "grad_norm": 0.31747427582740784,
      "learning_rate": 5e-05,
      "loss": 2.2577,
      "step": 4609
    },
    {
      "epoch": 0.08212170166935918,
      "grad_norm": 0.2425081729888916,
      "learning_rate": 5e-05,
      "loss": 1.7242,
      "step": 4610
    },
    {
      "epoch": 0.08225632740980075,
      "grad_norm": 0.2643461227416992,
      "learning_rate": 5e-05,
      "loss": 1.8843,
      "step": 4611
    },
    {
      "epoch": 0.08239095315024232,
      "grad_norm": 0.24999308586120605,
      "learning_rate": 5e-05,
      "loss": 1.8352,
      "step": 4612
    },
    {
      "epoch": 0.0825255788906839,
      "grad_norm": 0.2845813035964966,
      "learning_rate": 5e-05,
      "loss": 2.183,
      "step": 4613
    },
    {
      "epoch": 0.08266020463112547,
      "grad_norm": 0.24598783254623413,
      "learning_rate": 5e-05,
      "loss": 1.8599,
      "step": 4614
    },
    {
      "epoch": 0.08279483037156704,
      "grad_norm": 0.28748607635498047,
      "learning_rate": 5e-05,
      "loss": 2.3254,
      "step": 4615
    },
    {
      "epoch": 0.08292945611200861,
      "grad_norm": 0.26319754123687744,
      "learning_rate": 5e-05,
      "loss": 2.0111,
      "step": 4616
    },
    {
      "epoch": 0.08306408185245019,
      "grad_norm": 0.24979040026664734,
      "learning_rate": 5e-05,
      "loss": 1.5677,
      "step": 4617
    },
    {
      "epoch": 0.08319870759289176,
      "grad_norm": 0.3496773838996887,
      "learning_rate": 5e-05,
      "loss": 2.5392,
      "step": 4618
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.3413916826248169,
      "learning_rate": 5e-05,
      "loss": 2.5897,
      "step": 4619
    },
    {
      "epoch": 0.08346795907377491,
      "grad_norm": 0.3303467333316803,
      "learning_rate": 5e-05,
      "loss": 2.1529,
      "step": 4620
    },
    {
      "epoch": 0.08360258481421648,
      "grad_norm": 0.24834254384040833,
      "learning_rate": 5e-05,
      "loss": 1.9535,
      "step": 4621
    },
    {
      "epoch": 0.08373721055465805,
      "grad_norm": 0.2599741816520691,
      "learning_rate": 5e-05,
      "loss": 2.0693,
      "step": 4622
    },
    {
      "epoch": 0.08387183629509962,
      "grad_norm": 0.2577781677246094,
      "learning_rate": 5e-05,
      "loss": 1.9032,
      "step": 4623
    },
    {
      "epoch": 0.0840064620355412,
      "grad_norm": 0.2944704294204712,
      "learning_rate": 5e-05,
      "loss": 2.3189,
      "step": 4624
    },
    {
      "epoch": 0.08414108777598277,
      "grad_norm": 0.2603980302810669,
      "learning_rate": 5e-05,
      "loss": 1.73,
      "step": 4625
    },
    {
      "epoch": 0.08427571351642434,
      "grad_norm": 0.2767869830131531,
      "learning_rate": 5e-05,
      "loss": 2.0072,
      "step": 4626
    },
    {
      "epoch": 0.08441033925686592,
      "grad_norm": 0.28971314430236816,
      "learning_rate": 5e-05,
      "loss": 2.4067,
      "step": 4627
    },
    {
      "epoch": 0.08454496499730749,
      "grad_norm": 0.2570765018463135,
      "learning_rate": 5e-05,
      "loss": 2.2027,
      "step": 4628
    },
    {
      "epoch": 0.08467959073774906,
      "grad_norm": 0.26913124322891235,
      "learning_rate": 5e-05,
      "loss": 2.0476,
      "step": 4629
    },
    {
      "epoch": 0.08481421647819062,
      "grad_norm": 0.2554561495780945,
      "learning_rate": 5e-05,
      "loss": 1.9906,
      "step": 4630
    },
    {
      "epoch": 0.0849488422186322,
      "grad_norm": 0.2756900191307068,
      "learning_rate": 5e-05,
      "loss": 2.1461,
      "step": 4631
    },
    {
      "epoch": 0.08508346795907377,
      "grad_norm": 0.2653813660144806,
      "learning_rate": 5e-05,
      "loss": 1.757,
      "step": 4632
    },
    {
      "epoch": 0.08521809369951534,
      "grad_norm": 0.2444017082452774,
      "learning_rate": 5e-05,
      "loss": 1.8665,
      "step": 4633
    },
    {
      "epoch": 0.08535271943995693,
      "grad_norm": 0.2543705701828003,
      "learning_rate": 5e-05,
      "loss": 1.9887,
      "step": 4634
    },
    {
      "epoch": 0.0854873451803985,
      "grad_norm": 0.25790679454803467,
      "learning_rate": 5e-05,
      "loss": 1.804,
      "step": 4635
    },
    {
      "epoch": 0.08562197092084006,
      "grad_norm": 0.32381412386894226,
      "learning_rate": 5e-05,
      "loss": 2.5733,
      "step": 4636
    },
    {
      "epoch": 0.08575659666128163,
      "grad_norm": 0.26304948329925537,
      "learning_rate": 5e-05,
      "loss": 2.3122,
      "step": 4637
    },
    {
      "epoch": 0.08589122240172321,
      "grad_norm": 0.27501168847084045,
      "learning_rate": 5e-05,
      "loss": 2.0532,
      "step": 4638
    },
    {
      "epoch": 0.08602584814216478,
      "grad_norm": 0.26645979285240173,
      "learning_rate": 5e-05,
      "loss": 1.7385,
      "step": 4639
    },
    {
      "epoch": 0.08616047388260635,
      "grad_norm": 0.273581862449646,
      "learning_rate": 5e-05,
      "loss": 1.8515,
      "step": 4640
    },
    {
      "epoch": 0.08629509962304793,
      "grad_norm": 0.29088619351387024,
      "learning_rate": 5e-05,
      "loss": 2.0858,
      "step": 4641
    },
    {
      "epoch": 0.0864297253634895,
      "grad_norm": 0.2513594329357147,
      "learning_rate": 5e-05,
      "loss": 1.7126,
      "step": 4642
    },
    {
      "epoch": 0.08656435110393107,
      "grad_norm": 0.2453087419271469,
      "learning_rate": 5e-05,
      "loss": 1.8309,
      "step": 4643
    },
    {
      "epoch": 0.08669897684437264,
      "grad_norm": 0.2834382653236389,
      "learning_rate": 5e-05,
      "loss": 2.1902,
      "step": 4644
    },
    {
      "epoch": 0.08683360258481422,
      "grad_norm": 0.2512664794921875,
      "learning_rate": 5e-05,
      "loss": 1.8758,
      "step": 4645
    },
    {
      "epoch": 0.08696822832525579,
      "grad_norm": 0.2545507848262787,
      "learning_rate": 5e-05,
      "loss": 1.8258,
      "step": 4646
    },
    {
      "epoch": 0.08710285406569736,
      "grad_norm": 0.2895626127719879,
      "learning_rate": 5e-05,
      "loss": 2.4953,
      "step": 4647
    },
    {
      "epoch": 0.08723747980613894,
      "grad_norm": 0.28166577219963074,
      "learning_rate": 5e-05,
      "loss": 2.0738,
      "step": 4648
    },
    {
      "epoch": 0.08737210554658051,
      "grad_norm": 0.25264772772789,
      "learning_rate": 5e-05,
      "loss": 1.9744,
      "step": 4649
    },
    {
      "epoch": 0.08750673128702208,
      "grad_norm": 0.36103686690330505,
      "learning_rate": 5e-05,
      "loss": 2.0845,
      "step": 4650
    },
    {
      "epoch": 0.08764135702746365,
      "grad_norm": 0.38466641306877136,
      "learning_rate": 5e-05,
      "loss": 2.6158,
      "step": 4651
    },
    {
      "epoch": 0.08777598276790523,
      "grad_norm": 0.2941800057888031,
      "learning_rate": 5e-05,
      "loss": 2.0168,
      "step": 4652
    },
    {
      "epoch": 0.0879106085083468,
      "grad_norm": 0.25774845480918884,
      "learning_rate": 5e-05,
      "loss": 1.758,
      "step": 4653
    },
    {
      "epoch": 0.08804523424878836,
      "grad_norm": 0.2676332890987396,
      "learning_rate": 5e-05,
      "loss": 1.9106,
      "step": 4654
    },
    {
      "epoch": 0.08817985998922995,
      "grad_norm": 0.3073120415210724,
      "learning_rate": 5e-05,
      "loss": 2.2604,
      "step": 4655
    },
    {
      "epoch": 0.08831448572967152,
      "grad_norm": 0.30414506793022156,
      "learning_rate": 5e-05,
      "loss": 2.6258,
      "step": 4656
    },
    {
      "epoch": 0.08844911147011308,
      "grad_norm": 0.3054412007331848,
      "learning_rate": 5e-05,
      "loss": 3.0925,
      "step": 4657
    },
    {
      "epoch": 0.08858373721055465,
      "grad_norm": 0.27318456768989563,
      "learning_rate": 5e-05,
      "loss": 2.1579,
      "step": 4658
    },
    {
      "epoch": 0.08871836295099624,
      "grad_norm": 0.3115676939487457,
      "learning_rate": 5e-05,
      "loss": 2.6993,
      "step": 4659
    },
    {
      "epoch": 0.0888529886914378,
      "grad_norm": 0.303991436958313,
      "learning_rate": 5e-05,
      "loss": 2.1983,
      "step": 4660
    },
    {
      "epoch": 0.08898761443187937,
      "grad_norm": 0.2745058536529541,
      "learning_rate": 5e-05,
      "loss": 1.878,
      "step": 4661
    },
    {
      "epoch": 0.08912224017232095,
      "grad_norm": 0.23778307437896729,
      "learning_rate": 5e-05,
      "loss": 1.8227,
      "step": 4662
    },
    {
      "epoch": 0.08925686591276252,
      "grad_norm": 0.27127161622047424,
      "learning_rate": 5e-05,
      "loss": 2.0113,
      "step": 4663
    },
    {
      "epoch": 0.08939149165320409,
      "grad_norm": 0.2992801070213318,
      "learning_rate": 5e-05,
      "loss": 2.1174,
      "step": 4664
    },
    {
      "epoch": 0.08952611739364566,
      "grad_norm": 0.31886476278305054,
      "learning_rate": 5e-05,
      "loss": 2.4506,
      "step": 4665
    },
    {
      "epoch": 0.08966074313408724,
      "grad_norm": 0.38096195459365845,
      "learning_rate": 5e-05,
      "loss": 2.6249,
      "step": 4666
    },
    {
      "epoch": 0.08979536887452881,
      "grad_norm": 0.27960172295570374,
      "learning_rate": 5e-05,
      "loss": 2.0812,
      "step": 4667
    },
    {
      "epoch": 0.08992999461497038,
      "grad_norm": 0.26326799392700195,
      "learning_rate": 5e-05,
      "loss": 2.0621,
      "step": 4668
    },
    {
      "epoch": 0.09006462035541195,
      "grad_norm": 0.25962916016578674,
      "learning_rate": 5e-05,
      "loss": 1.618,
      "step": 4669
    },
    {
      "epoch": 0.09019924609585353,
      "grad_norm": 0.2671915292739868,
      "learning_rate": 5e-05,
      "loss": 1.9476,
      "step": 4670
    },
    {
      "epoch": 0.0903338718362951,
      "grad_norm": 0.29626187682151794,
      "learning_rate": 5e-05,
      "loss": 2.3354,
      "step": 4671
    },
    {
      "epoch": 0.09046849757673667,
      "grad_norm": 0.238827183842659,
      "learning_rate": 5e-05,
      "loss": 1.7124,
      "step": 4672
    },
    {
      "epoch": 0.09060312331717825,
      "grad_norm": 0.26195234060287476,
      "learning_rate": 5e-05,
      "loss": 1.9337,
      "step": 4673
    },
    {
      "epoch": 0.09073774905761982,
      "grad_norm": 0.25021106004714966,
      "learning_rate": 5e-05,
      "loss": 2.0189,
      "step": 4674
    },
    {
      "epoch": 0.09087237479806139,
      "grad_norm": 0.2480192333459854,
      "learning_rate": 5e-05,
      "loss": 1.7821,
      "step": 4675
    },
    {
      "epoch": 0.09100700053850296,
      "grad_norm": 0.2758081555366516,
      "learning_rate": 5e-05,
      "loss": 2.3762,
      "step": 4676
    },
    {
      "epoch": 0.09114162627894454,
      "grad_norm": 0.27483677864074707,
      "learning_rate": 5e-05,
      "loss": 2.2926,
      "step": 4677
    },
    {
      "epoch": 0.0912762520193861,
      "grad_norm": 0.24171820282936096,
      "learning_rate": 5e-05,
      "loss": 1.9684,
      "step": 4678
    },
    {
      "epoch": 0.09141087775982767,
      "grad_norm": 0.2695096731185913,
      "learning_rate": 5e-05,
      "loss": 2.2943,
      "step": 4679
    },
    {
      "epoch": 0.09154550350026926,
      "grad_norm": 0.2558712959289551,
      "learning_rate": 5e-05,
      "loss": 1.8849,
      "step": 4680
    },
    {
      "epoch": 0.09168012924071083,
      "grad_norm": 0.2418704479932785,
      "learning_rate": 5e-05,
      "loss": 1.7711,
      "step": 4681
    },
    {
      "epoch": 0.0918147549811524,
      "grad_norm": 0.2636951208114624,
      "learning_rate": 5e-05,
      "loss": 2.4576,
      "step": 4682
    },
    {
      "epoch": 0.09194938072159396,
      "grad_norm": 0.2541961073875427,
      "learning_rate": 5e-05,
      "loss": 1.6535,
      "step": 4683
    },
    {
      "epoch": 0.09208400646203554,
      "grad_norm": 0.2737675607204437,
      "learning_rate": 5e-05,
      "loss": 1.9752,
      "step": 4684
    },
    {
      "epoch": 0.09221863220247711,
      "grad_norm": 0.2479611188173294,
      "learning_rate": 5e-05,
      "loss": 1.7989,
      "step": 4685
    },
    {
      "epoch": 0.09235325794291868,
      "grad_norm": 0.3500494658946991,
      "learning_rate": 5e-05,
      "loss": 2.5361,
      "step": 4686
    },
    {
      "epoch": 0.09248788368336026,
      "grad_norm": 0.25647369027137756,
      "learning_rate": 5e-05,
      "loss": 1.9944,
      "step": 4687
    },
    {
      "epoch": 0.09262250942380183,
      "grad_norm": 0.2812287509441376,
      "learning_rate": 5e-05,
      "loss": 1.8088,
      "step": 4688
    },
    {
      "epoch": 0.0927571351642434,
      "grad_norm": 0.2996978759765625,
      "learning_rate": 5e-05,
      "loss": 2.0883,
      "step": 4689
    },
    {
      "epoch": 0.09289176090468497,
      "grad_norm": 0.29472431540489197,
      "learning_rate": 5e-05,
      "loss": 2.7084,
      "step": 4690
    },
    {
      "epoch": 0.09302638664512655,
      "grad_norm": 0.24642300605773926,
      "learning_rate": 5e-05,
      "loss": 1.8504,
      "step": 4691
    },
    {
      "epoch": 0.09316101238556812,
      "grad_norm": 0.2698117196559906,
      "learning_rate": 5e-05,
      "loss": 1.9104,
      "step": 4692
    },
    {
      "epoch": 0.09329563812600969,
      "grad_norm": 0.2724333703517914,
      "learning_rate": 5e-05,
      "loss": 1.9746,
      "step": 4693
    },
    {
      "epoch": 0.09343026386645127,
      "grad_norm": 0.27809303998947144,
      "learning_rate": 5e-05,
      "loss": 2.1439,
      "step": 4694
    },
    {
      "epoch": 0.09356488960689284,
      "grad_norm": 0.25676295161247253,
      "learning_rate": 5e-05,
      "loss": 1.9596,
      "step": 4695
    },
    {
      "epoch": 0.09369951534733441,
      "grad_norm": 0.2661857008934021,
      "learning_rate": 5e-05,
      "loss": 1.9162,
      "step": 4696
    },
    {
      "epoch": 0.09383414108777598,
      "grad_norm": 0.23488739132881165,
      "learning_rate": 5e-05,
      "loss": 1.9156,
      "step": 4697
    },
    {
      "epoch": 0.09396876682821756,
      "grad_norm": 0.2496265470981598,
      "learning_rate": 5e-05,
      "loss": 1.8742,
      "step": 4698
    },
    {
      "epoch": 0.09410339256865913,
      "grad_norm": 0.26106521487236023,
      "learning_rate": 5e-05,
      "loss": 1.8262,
      "step": 4699
    },
    {
      "epoch": 0.0942380183091007,
      "grad_norm": 0.26142072677612305,
      "learning_rate": 5e-05,
      "loss": 1.9609,
      "step": 4700
    },
    {
      "epoch": 0.09437264404954228,
      "grad_norm": 0.2567203938961029,
      "learning_rate": 5e-05,
      "loss": 2.1455,
      "step": 4701
    },
    {
      "epoch": 0.09450726978998385,
      "grad_norm": 0.23684780299663544,
      "learning_rate": 5e-05,
      "loss": 1.7449,
      "step": 4702
    },
    {
      "epoch": 0.09464189553042542,
      "grad_norm": 0.2559148669242859,
      "learning_rate": 5e-05,
      "loss": 1.7038,
      "step": 4703
    },
    {
      "epoch": 0.09477652127086698,
      "grad_norm": 0.25242602825164795,
      "learning_rate": 5e-05,
      "loss": 1.7077,
      "step": 4704
    },
    {
      "epoch": 0.09491114701130857,
      "grad_norm": 0.26847854256629944,
      "learning_rate": 5e-05,
      "loss": 2.1034,
      "step": 4705
    },
    {
      "epoch": 0.09504577275175013,
      "grad_norm": 0.2526527941226959,
      "learning_rate": 5e-05,
      "loss": 1.6664,
      "step": 4706
    },
    {
      "epoch": 0.0951803984921917,
      "grad_norm": 0.4327872395515442,
      "learning_rate": 5e-05,
      "loss": 3.0637,
      "step": 4707
    },
    {
      "epoch": 0.09531502423263329,
      "grad_norm": 0.2513212263584137,
      "learning_rate": 5e-05,
      "loss": 1.7763,
      "step": 4708
    },
    {
      "epoch": 0.09544964997307485,
      "grad_norm": 0.2555837631225586,
      "learning_rate": 5e-05,
      "loss": 1.8145,
      "step": 4709
    },
    {
      "epoch": 0.09558427571351642,
      "grad_norm": 0.3784790337085724,
      "learning_rate": 5e-05,
      "loss": 2.2726,
      "step": 4710
    },
    {
      "epoch": 0.09571890145395799,
      "grad_norm": 0.26493266224861145,
      "learning_rate": 5e-05,
      "loss": 1.9166,
      "step": 4711
    },
    {
      "epoch": 0.09585352719439957,
      "grad_norm": 0.28208932280540466,
      "learning_rate": 5e-05,
      "loss": 2.0241,
      "step": 4712
    },
    {
      "epoch": 0.09598815293484114,
      "grad_norm": 0.24953363835811615,
      "learning_rate": 5e-05,
      "loss": 1.6737,
      "step": 4713
    },
    {
      "epoch": 0.09612277867528271,
      "grad_norm": 0.2963295876979828,
      "learning_rate": 5e-05,
      "loss": 2.0174,
      "step": 4714
    },
    {
      "epoch": 0.0962574044157243,
      "grad_norm": 0.2841149568557739,
      "learning_rate": 5e-05,
      "loss": 2.2187,
      "step": 4715
    },
    {
      "epoch": 0.09639203015616586,
      "grad_norm": 0.3556388318538666,
      "learning_rate": 5e-05,
      "loss": 2.7108,
      "step": 4716
    },
    {
      "epoch": 0.09652665589660743,
      "grad_norm": 0.26078811287879944,
      "learning_rate": 5e-05,
      "loss": 2.1462,
      "step": 4717
    },
    {
      "epoch": 0.096661281637049,
      "grad_norm": 0.28427234292030334,
      "learning_rate": 5e-05,
      "loss": 2.015,
      "step": 4718
    },
    {
      "epoch": 0.09679590737749058,
      "grad_norm": 0.24941886961460114,
      "learning_rate": 5e-05,
      "loss": 1.6911,
      "step": 4719
    },
    {
      "epoch": 0.09693053311793215,
      "grad_norm": 0.3078060746192932,
      "learning_rate": 5e-05,
      "loss": 2.1062,
      "step": 4720
    },
    {
      "epoch": 0.09706515885837372,
      "grad_norm": 0.39347612857818604,
      "learning_rate": 5e-05,
      "loss": 2.7494,
      "step": 4721
    },
    {
      "epoch": 0.0971997845988153,
      "grad_norm": 0.27030324935913086,
      "learning_rate": 5e-05,
      "loss": 1.9145,
      "step": 4722
    },
    {
      "epoch": 0.09733441033925687,
      "grad_norm": 0.30643391609191895,
      "learning_rate": 5e-05,
      "loss": 2.1291,
      "step": 4723
    },
    {
      "epoch": 0.09746903607969844,
      "grad_norm": 0.3195534348487854,
      "learning_rate": 5e-05,
      "loss": 2.1151,
      "step": 4724
    },
    {
      "epoch": 0.09760366182014,
      "grad_norm": 0.2660619020462036,
      "learning_rate": 5e-05,
      "loss": 2.305,
      "step": 4725
    },
    {
      "epoch": 0.09773828756058159,
      "grad_norm": 0.26303017139434814,
      "learning_rate": 5e-05,
      "loss": 1.8464,
      "step": 4726
    },
    {
      "epoch": 0.09787291330102316,
      "grad_norm": 0.2640092670917511,
      "learning_rate": 5e-05,
      "loss": 2.0171,
      "step": 4727
    },
    {
      "epoch": 0.09800753904146473,
      "grad_norm": 0.375047892332077,
      "learning_rate": 5e-05,
      "loss": 2.5033,
      "step": 4728
    },
    {
      "epoch": 0.0981421647819063,
      "grad_norm": 0.2848834693431854,
      "learning_rate": 5e-05,
      "loss": 1.9171,
      "step": 4729
    },
    {
      "epoch": 0.09827679052234788,
      "grad_norm": 0.28064045310020447,
      "learning_rate": 5e-05,
      "loss": 1.7635,
      "step": 4730
    },
    {
      "epoch": 0.09841141626278944,
      "grad_norm": 0.2573834955692291,
      "learning_rate": 5e-05,
      "loss": 2.1904,
      "step": 4731
    },
    {
      "epoch": 0.09854604200323101,
      "grad_norm": 0.27952849864959717,
      "learning_rate": 5e-05,
      "loss": 2.3257,
      "step": 4732
    },
    {
      "epoch": 0.0986806677436726,
      "grad_norm": 0.2622038722038269,
      "learning_rate": 5e-05,
      "loss": 1.7168,
      "step": 4733
    },
    {
      "epoch": 0.09881529348411416,
      "grad_norm": 0.2580394148826599,
      "learning_rate": 5e-05,
      "loss": 2.0104,
      "step": 4734
    },
    {
      "epoch": 0.09894991922455573,
      "grad_norm": 0.3955046534538269,
      "learning_rate": 5e-05,
      "loss": 3.2087,
      "step": 4735
    },
    {
      "epoch": 0.0990845449649973,
      "grad_norm": 0.5691707134246826,
      "learning_rate": 5e-05,
      "loss": 3.6739,
      "step": 4736
    },
    {
      "epoch": 0.09921917070543888,
      "grad_norm": 0.3378874361515045,
      "learning_rate": 5e-05,
      "loss": 2.1552,
      "step": 4737
    },
    {
      "epoch": 0.09935379644588045,
      "grad_norm": 0.3069067597389221,
      "learning_rate": 5e-05,
      "loss": 1.9643,
      "step": 4738
    },
    {
      "epoch": 0.09948842218632202,
      "grad_norm": 0.3111771047115326,
      "learning_rate": 5e-05,
      "loss": 1.849,
      "step": 4739
    },
    {
      "epoch": 0.0996230479267636,
      "grad_norm": 0.30181586742401123,
      "learning_rate": 5e-05,
      "loss": 1.8588,
      "step": 4740
    },
    {
      "epoch": 0.09975767366720517,
      "grad_norm": 0.3690069913864136,
      "learning_rate": 5e-05,
      "loss": 2.6081,
      "step": 4741
    },
    {
      "epoch": 0.09989229940764674,
      "grad_norm": 0.300573468208313,
      "learning_rate": 5e-05,
      "loss": 2.2682,
      "step": 4742
    },
    {
      "epoch": 0.10002692514808831,
      "grad_norm": 0.2982575297355652,
      "learning_rate": 5e-05,
      "loss": 2.7289,
      "step": 4743
    },
    {
      "epoch": 0.10016155088852989,
      "grad_norm": 0.30245429277420044,
      "learning_rate": 5e-05,
      "loss": 1.8614,
      "step": 4744
    },
    {
      "epoch": 0.10029617662897146,
      "grad_norm": 0.29095223546028137,
      "learning_rate": 5e-05,
      "loss": 1.7226,
      "step": 4745
    },
    {
      "epoch": 0.10043080236941303,
      "grad_norm": 0.3499804437160492,
      "learning_rate": 5e-05,
      "loss": 2.5779,
      "step": 4746
    },
    {
      "epoch": 0.10056542810985461,
      "grad_norm": 0.27284422516822815,
      "learning_rate": 5e-05,
      "loss": 1.8229,
      "step": 4747
    },
    {
      "epoch": 0.10070005385029618,
      "grad_norm": 0.252231627702713,
      "learning_rate": 5e-05,
      "loss": 2.6168,
      "step": 4748
    },
    {
      "epoch": 0.10083467959073775,
      "grad_norm": 0.2617659866809845,
      "learning_rate": 5e-05,
      "loss": 2.4714,
      "step": 4749
    },
    {
      "epoch": 0.10096930533117932,
      "grad_norm": 0.4643687307834625,
      "learning_rate": 5e-05,
      "loss": 2.6652,
      "step": 4750
    },
    {
      "epoch": 0.1011039310716209,
      "grad_norm": 0.27163881063461304,
      "learning_rate": 5e-05,
      "loss": 1.7387,
      "step": 4751
    },
    {
      "epoch": 0.10123855681206247,
      "grad_norm": 0.28806209564208984,
      "learning_rate": 5e-05,
      "loss": 1.9061,
      "step": 4752
    },
    {
      "epoch": 0.10137318255250403,
      "grad_norm": 0.28048425912857056,
      "learning_rate": 5e-05,
      "loss": 2.4658,
      "step": 4753
    },
    {
      "epoch": 0.10150780829294562,
      "grad_norm": 0.3443506360054016,
      "learning_rate": 5e-05,
      "loss": 2.4316,
      "step": 4754
    },
    {
      "epoch": 0.10164243403338719,
      "grad_norm": 0.2589358687400818,
      "learning_rate": 5e-05,
      "loss": 1.7043,
      "step": 4755
    },
    {
      "epoch": 0.10177705977382875,
      "grad_norm": 0.2877528965473175,
      "learning_rate": 5e-05,
      "loss": 2.2972,
      "step": 4756
    },
    {
      "epoch": 0.10191168551427032,
      "grad_norm": 0.30403932929039,
      "learning_rate": 5e-05,
      "loss": 2.3626,
      "step": 4757
    },
    {
      "epoch": 0.1020463112547119,
      "grad_norm": 0.26371079683303833,
      "learning_rate": 5e-05,
      "loss": 1.8376,
      "step": 4758
    },
    {
      "epoch": 0.10218093699515347,
      "grad_norm": 0.27823469042778015,
      "learning_rate": 5e-05,
      "loss": 2.072,
      "step": 4759
    },
    {
      "epoch": 0.10231556273559504,
      "grad_norm": 0.2819821238517761,
      "learning_rate": 5e-05,
      "loss": 2.0505,
      "step": 4760
    },
    {
      "epoch": 0.10245018847603662,
      "grad_norm": 0.2789876461029053,
      "learning_rate": 5e-05,
      "loss": 2.0251,
      "step": 4761
    },
    {
      "epoch": 0.10258481421647819,
      "grad_norm": 0.3177429735660553,
      "learning_rate": 5e-05,
      "loss": 3.2,
      "step": 4762
    },
    {
      "epoch": 0.10271943995691976,
      "grad_norm": 0.2750532329082489,
      "learning_rate": 5e-05,
      "loss": 2.0218,
      "step": 4763
    },
    {
      "epoch": 0.10285406569736133,
      "grad_norm": 0.2615395784378052,
      "learning_rate": 5e-05,
      "loss": 1.9292,
      "step": 4764
    },
    {
      "epoch": 0.10298869143780291,
      "grad_norm": 0.3349057734012604,
      "learning_rate": 5e-05,
      "loss": 2.8536,
      "step": 4765
    },
    {
      "epoch": 0.10312331717824448,
      "grad_norm": 0.2679023742675781,
      "learning_rate": 5e-05,
      "loss": 1.8064,
      "step": 4766
    },
    {
      "epoch": 0.10325794291868605,
      "grad_norm": 0.2622954845428467,
      "learning_rate": 5e-05,
      "loss": 1.9355,
      "step": 4767
    },
    {
      "epoch": 0.10339256865912763,
      "grad_norm": 0.26080605387687683,
      "learning_rate": 5e-05,
      "loss": 1.7899,
      "step": 4768
    },
    {
      "epoch": 0.1035271943995692,
      "grad_norm": 0.23687593638896942,
      "learning_rate": 5e-05,
      "loss": 1.8318,
      "step": 4769
    },
    {
      "epoch": 0.10366182014001077,
      "grad_norm": 0.2493593990802765,
      "learning_rate": 5e-05,
      "loss": 1.9716,
      "step": 4770
    },
    {
      "epoch": 0.10379644588045234,
      "grad_norm": 0.2549736201763153,
      "learning_rate": 5e-05,
      "loss": 1.9433,
      "step": 4771
    },
    {
      "epoch": 0.10393107162089392,
      "grad_norm": 0.2513757050037384,
      "learning_rate": 5e-05,
      "loss": 1.9713,
      "step": 4772
    },
    {
      "epoch": 0.10406569736133549,
      "grad_norm": 0.2692904472351074,
      "learning_rate": 5e-05,
      "loss": 2.0259,
      "step": 4773
    },
    {
      "epoch": 0.10420032310177706,
      "grad_norm": 0.2578802704811096,
      "learning_rate": 5e-05,
      "loss": 1.9004,
      "step": 4774
    },
    {
      "epoch": 0.10433494884221864,
      "grad_norm": 0.2691671550273895,
      "learning_rate": 5e-05,
      "loss": 2.0784,
      "step": 4775
    },
    {
      "epoch": 0.10446957458266021,
      "grad_norm": 0.3901028633117676,
      "learning_rate": 5e-05,
      "loss": 2.7812,
      "step": 4776
    },
    {
      "epoch": 0.10460420032310178,
      "grad_norm": 0.27185240387916565,
      "learning_rate": 5e-05,
      "loss": 2.0243,
      "step": 4777
    },
    {
      "epoch": 0.10473882606354334,
      "grad_norm": 0.5646002292633057,
      "learning_rate": 5e-05,
      "loss": 3.5511,
      "step": 4778
    },
    {
      "epoch": 0.10487345180398493,
      "grad_norm": 0.2729725241661072,
      "learning_rate": 5e-05,
      "loss": 2.2637,
      "step": 4779
    },
    {
      "epoch": 0.1050080775444265,
      "grad_norm": 0.28175342082977295,
      "learning_rate": 5e-05,
      "loss": 2.4673,
      "step": 4780
    },
    {
      "epoch": 0.10514270328486806,
      "grad_norm": 0.2886926829814911,
      "learning_rate": 5e-05,
      "loss": 2.4144,
      "step": 4781
    },
    {
      "epoch": 0.10527732902530965,
      "grad_norm": 0.25114962458610535,
      "learning_rate": 5e-05,
      "loss": 1.6537,
      "step": 4782
    },
    {
      "epoch": 0.10541195476575121,
      "grad_norm": 0.26656004786491394,
      "learning_rate": 5e-05,
      "loss": 1.7673,
      "step": 4783
    },
    {
      "epoch": 0.10554658050619278,
      "grad_norm": 0.30084437131881714,
      "learning_rate": 5e-05,
      "loss": 2.0448,
      "step": 4784
    },
    {
      "epoch": 0.10568120624663435,
      "grad_norm": 0.29504311084747314,
      "learning_rate": 5e-05,
      "loss": 2.1762,
      "step": 4785
    },
    {
      "epoch": 0.10581583198707593,
      "grad_norm": 0.28310099244117737,
      "learning_rate": 5e-05,
      "loss": 2.1311,
      "step": 4786
    },
    {
      "epoch": 0.1059504577275175,
      "grad_norm": 0.2551673948764801,
      "learning_rate": 5e-05,
      "loss": 1.6914,
      "step": 4787
    },
    {
      "epoch": 0.10608508346795907,
      "grad_norm": 0.26452651619911194,
      "learning_rate": 5e-05,
      "loss": 1.7722,
      "step": 4788
    },
    {
      "epoch": 0.10621970920840064,
      "grad_norm": 0.2842693328857422,
      "learning_rate": 5e-05,
      "loss": 1.9308,
      "step": 4789
    },
    {
      "epoch": 0.10635433494884222,
      "grad_norm": 0.3085356652736664,
      "learning_rate": 5e-05,
      "loss": 2.0686,
      "step": 4790
    },
    {
      "epoch": 0.10648896068928379,
      "grad_norm": 0.26289504766464233,
      "learning_rate": 5e-05,
      "loss": 1.9078,
      "step": 4791
    },
    {
      "epoch": 0.10662358642972536,
      "grad_norm": 0.2512781620025635,
      "learning_rate": 5e-05,
      "loss": 1.855,
      "step": 4792
    },
    {
      "epoch": 0.10675821217016694,
      "grad_norm": 0.2838418185710907,
      "learning_rate": 5e-05,
      "loss": 1.9245,
      "step": 4793
    },
    {
      "epoch": 0.10689283791060851,
      "grad_norm": 0.2617965638637543,
      "learning_rate": 5e-05,
      "loss": 1.8448,
      "step": 4794
    },
    {
      "epoch": 0.10702746365105008,
      "grad_norm": 0.26783621311187744,
      "learning_rate": 5e-05,
      "loss": 1.8166,
      "step": 4795
    },
    {
      "epoch": 0.10716208939149165,
      "grad_norm": 0.29469767212867737,
      "learning_rate": 5e-05,
      "loss": 2.0808,
      "step": 4796
    },
    {
      "epoch": 0.10729671513193323,
      "grad_norm": 0.2611255347728729,
      "learning_rate": 5e-05,
      "loss": 1.9407,
      "step": 4797
    },
    {
      "epoch": 0.1074313408723748,
      "grad_norm": 0.265788733959198,
      "learning_rate": 5e-05,
      "loss": 1.8573,
      "step": 4798
    },
    {
      "epoch": 0.10756596661281637,
      "grad_norm": 0.25998905301094055,
      "learning_rate": 5e-05,
      "loss": 1.9311,
      "step": 4799
    },
    {
      "epoch": 0.10770059235325795,
      "grad_norm": 0.24445779621601105,
      "learning_rate": 5e-05,
      "loss": 1.7731,
      "step": 4800
    },
    {
      "epoch": 0.10783521809369952,
      "grad_norm": 0.4143630266189575,
      "learning_rate": 5e-05,
      "loss": 2.623,
      "step": 4801
    },
    {
      "epoch": 0.10796984383414109,
      "grad_norm": 0.38730061054229736,
      "learning_rate": 5e-05,
      "loss": 2.534,
      "step": 4802
    },
    {
      "epoch": 0.10810446957458265,
      "grad_norm": 0.2637810707092285,
      "learning_rate": 5e-05,
      "loss": 1.616,
      "step": 4803
    },
    {
      "epoch": 0.10823909531502424,
      "grad_norm": 0.27866196632385254,
      "learning_rate": 5e-05,
      "loss": 2.0281,
      "step": 4804
    },
    {
      "epoch": 0.1083737210554658,
      "grad_norm": 0.2835443317890167,
      "learning_rate": 5e-05,
      "loss": 1.8358,
      "step": 4805
    },
    {
      "epoch": 0.10850834679590737,
      "grad_norm": 0.2637532949447632,
      "learning_rate": 5e-05,
      "loss": 1.6885,
      "step": 4806
    },
    {
      "epoch": 0.10864297253634896,
      "grad_norm": 0.2521449625492096,
      "learning_rate": 5e-05,
      "loss": 2.0197,
      "step": 4807
    },
    {
      "epoch": 0.10877759827679052,
      "grad_norm": 0.29258298873901367,
      "learning_rate": 5e-05,
      "loss": 2.0019,
      "step": 4808
    },
    {
      "epoch": 0.10891222401723209,
      "grad_norm": 0.286331444978714,
      "learning_rate": 5e-05,
      "loss": 2.6231,
      "step": 4809
    },
    {
      "epoch": 0.10904684975767366,
      "grad_norm": 0.2632542550563812,
      "learning_rate": 5e-05,
      "loss": 1.7273,
      "step": 4810
    },
    {
      "epoch": 0.10918147549811524,
      "grad_norm": 0.26899734139442444,
      "learning_rate": 5e-05,
      "loss": 2.1604,
      "step": 4811
    },
    {
      "epoch": 0.10931610123855681,
      "grad_norm": 0.27399295568466187,
      "learning_rate": 5e-05,
      "loss": 2.0047,
      "step": 4812
    },
    {
      "epoch": 0.10945072697899838,
      "grad_norm": 0.259267657995224,
      "learning_rate": 5e-05,
      "loss": 1.9862,
      "step": 4813
    },
    {
      "epoch": 0.10958535271943996,
      "grad_norm": 0.24017055332660675,
      "learning_rate": 5e-05,
      "loss": 1.7685,
      "step": 4814
    },
    {
      "epoch": 0.10971997845988153,
      "grad_norm": 0.27749112248420715,
      "learning_rate": 5e-05,
      "loss": 2.4439,
      "step": 4815
    },
    {
      "epoch": 0.1098546042003231,
      "grad_norm": 0.247432678937912,
      "learning_rate": 5e-05,
      "loss": 1.9424,
      "step": 4816
    },
    {
      "epoch": 0.10998922994076467,
      "grad_norm": 0.2955124080181122,
      "learning_rate": 5e-05,
      "loss": 2.5367,
      "step": 4817
    },
    {
      "epoch": 0.11012385568120625,
      "grad_norm": 0.24898004531860352,
      "learning_rate": 5e-05,
      "loss": 1.6974,
      "step": 4818
    },
    {
      "epoch": 0.11025848142164782,
      "grad_norm": 0.2531496286392212,
      "learning_rate": 5e-05,
      "loss": 1.7612,
      "step": 4819
    },
    {
      "epoch": 0.11039310716208939,
      "grad_norm": 0.2615487277507782,
      "learning_rate": 5e-05,
      "loss": 1.8333,
      "step": 4820
    },
    {
      "epoch": 0.11052773290253097,
      "grad_norm": 0.24965859949588776,
      "learning_rate": 5e-05,
      "loss": 1.6878,
      "step": 4821
    },
    {
      "epoch": 0.11066235864297254,
      "grad_norm": 0.2655046582221985,
      "learning_rate": 5e-05,
      "loss": 2.0458,
      "step": 4822
    },
    {
      "epoch": 0.11079698438341411,
      "grad_norm": 0.28803983330726624,
      "learning_rate": 5e-05,
      "loss": 2.2627,
      "step": 4823
    },
    {
      "epoch": 0.11093161012385568,
      "grad_norm": 0.25731492042541504,
      "learning_rate": 5e-05,
      "loss": 1.7499,
      "step": 4824
    },
    {
      "epoch": 0.11106623586429726,
      "grad_norm": 0.25242847204208374,
      "learning_rate": 5e-05,
      "loss": 1.6391,
      "step": 4825
    },
    {
      "epoch": 0.11120086160473883,
      "grad_norm": 0.25091487169265747,
      "learning_rate": 5e-05,
      "loss": 1.8405,
      "step": 4826
    },
    {
      "epoch": 0.1113354873451804,
      "grad_norm": 0.2626594603061676,
      "learning_rate": 5e-05,
      "loss": 1.9943,
      "step": 4827
    },
    {
      "epoch": 0.11147011308562198,
      "grad_norm": 0.26816698908805847,
      "learning_rate": 5e-05,
      "loss": 2.2826,
      "step": 4828
    },
    {
      "epoch": 0.11160473882606355,
      "grad_norm": 0.253068208694458,
      "learning_rate": 5e-05,
      "loss": 1.9438,
      "step": 4829
    },
    {
      "epoch": 0.11173936456650511,
      "grad_norm": 0.24225349724292755,
      "learning_rate": 5e-05,
      "loss": 1.8207,
      "step": 4830
    },
    {
      "epoch": 0.11187399030694668,
      "grad_norm": 0.27866020798683167,
      "learning_rate": 5e-05,
      "loss": 1.7247,
      "step": 4831
    },
    {
      "epoch": 0.11200861604738827,
      "grad_norm": 0.26813215017318726,
      "learning_rate": 5e-05,
      "loss": 1.9366,
      "step": 4832
    },
    {
      "epoch": 0.11214324178782983,
      "grad_norm": 0.26608043909072876,
      "learning_rate": 5e-05,
      "loss": 2.0109,
      "step": 4833
    },
    {
      "epoch": 0.1122778675282714,
      "grad_norm": 0.29936107993125916,
      "learning_rate": 5e-05,
      "loss": 2.4864,
      "step": 4834
    },
    {
      "epoch": 0.11241249326871298,
      "grad_norm": 0.26440033316612244,
      "learning_rate": 5e-05,
      "loss": 2.047,
      "step": 4835
    },
    {
      "epoch": 0.11254711900915455,
      "grad_norm": 0.26806241273880005,
      "learning_rate": 5e-05,
      "loss": 2.0415,
      "step": 4836
    },
    {
      "epoch": 0.11268174474959612,
      "grad_norm": 0.25820666551589966,
      "learning_rate": 5e-05,
      "loss": 1.8573,
      "step": 4837
    },
    {
      "epoch": 0.11281637049003769,
      "grad_norm": 0.5267758965492249,
      "learning_rate": 5e-05,
      "loss": 3.4778,
      "step": 4838
    },
    {
      "epoch": 0.11295099623047927,
      "grad_norm": 0.2649792432785034,
      "learning_rate": 5e-05,
      "loss": 2.4419,
      "step": 4839
    },
    {
      "epoch": 0.11308562197092084,
      "grad_norm": 0.2780419886112213,
      "learning_rate": 5e-05,
      "loss": 1.9044,
      "step": 4840
    },
    {
      "epoch": 0.11322024771136241,
      "grad_norm": 0.2663828134536743,
      "learning_rate": 5e-05,
      "loss": 1.8675,
      "step": 4841
    },
    {
      "epoch": 0.11335487345180398,
      "grad_norm": 0.29855480790138245,
      "learning_rate": 5e-05,
      "loss": 2.8819,
      "step": 4842
    },
    {
      "epoch": 0.11348949919224556,
      "grad_norm": 0.24496735632419586,
      "learning_rate": 5e-05,
      "loss": 1.7409,
      "step": 4843
    },
    {
      "epoch": 0.11362412493268713,
      "grad_norm": 0.27425411343574524,
      "learning_rate": 5e-05,
      "loss": 2.7298,
      "step": 4844
    },
    {
      "epoch": 0.1137587506731287,
      "grad_norm": 0.2507175803184509,
      "learning_rate": 5e-05,
      "loss": 1.6757,
      "step": 4845
    },
    {
      "epoch": 0.11389337641357028,
      "grad_norm": 0.26907435059547424,
      "learning_rate": 5e-05,
      "loss": 1.7454,
      "step": 4846
    },
    {
      "epoch": 0.11402800215401185,
      "grad_norm": 0.2618522644042969,
      "learning_rate": 5e-05,
      "loss": 2.0142,
      "step": 4847
    },
    {
      "epoch": 0.11416262789445342,
      "grad_norm": 0.2562314569950104,
      "learning_rate": 5e-05,
      "loss": 1.762,
      "step": 4848
    },
    {
      "epoch": 0.11429725363489499,
      "grad_norm": 0.25517505407333374,
      "learning_rate": 5e-05,
      "loss": 1.8375,
      "step": 4849
    },
    {
      "epoch": 0.11443187937533657,
      "grad_norm": 0.2631945312023163,
      "learning_rate": 5e-05,
      "loss": 1.6794,
      "step": 4850
    },
    {
      "epoch": 0.11456650511577814,
      "grad_norm": 0.25348103046417236,
      "learning_rate": 5e-05,
      "loss": 1.8157,
      "step": 4851
    },
    {
      "epoch": 0.1147011308562197,
      "grad_norm": 0.2899132966995239,
      "learning_rate": 5e-05,
      "loss": 2.1318,
      "step": 4852
    },
    {
      "epoch": 0.11483575659666129,
      "grad_norm": 0.25800055265426636,
      "learning_rate": 5e-05,
      "loss": 1.8781,
      "step": 4853
    },
    {
      "epoch": 0.11497038233710286,
      "grad_norm": 0.25260621309280396,
      "learning_rate": 5e-05,
      "loss": 1.7921,
      "step": 4854
    },
    {
      "epoch": 0.11510500807754442,
      "grad_norm": 0.3023969233036041,
      "learning_rate": 5e-05,
      "loss": 2.1373,
      "step": 4855
    },
    {
      "epoch": 0.11523963381798599,
      "grad_norm": 0.2601917088031769,
      "learning_rate": 5e-05,
      "loss": 2.0708,
      "step": 4856
    },
    {
      "epoch": 0.11537425955842757,
      "grad_norm": 0.4518483579158783,
      "learning_rate": 5e-05,
      "loss": 3.3041,
      "step": 4857
    },
    {
      "epoch": 0.11550888529886914,
      "grad_norm": 0.2854950428009033,
      "learning_rate": 5e-05,
      "loss": 2.205,
      "step": 4858
    },
    {
      "epoch": 0.11564351103931071,
      "grad_norm": 0.26558423042297363,
      "learning_rate": 5e-05,
      "loss": 1.7366,
      "step": 4859
    },
    {
      "epoch": 0.1157781367797523,
      "grad_norm": 0.2817477881908417,
      "learning_rate": 5e-05,
      "loss": 2.4687,
      "step": 4860
    },
    {
      "epoch": 0.11591276252019386,
      "grad_norm": 0.31087327003479004,
      "learning_rate": 5e-05,
      "loss": 2.2012,
      "step": 4861
    },
    {
      "epoch": 0.11604738826063543,
      "grad_norm": 0.40083637833595276,
      "learning_rate": 5e-05,
      "loss": 2.8474,
      "step": 4862
    },
    {
      "epoch": 0.116182014001077,
      "grad_norm": 0.259482204914093,
      "learning_rate": 5e-05,
      "loss": 2.455,
      "step": 4863
    },
    {
      "epoch": 0.11631663974151858,
      "grad_norm": 0.2657049894332886,
      "learning_rate": 5e-05,
      "loss": 2.116,
      "step": 4864
    },
    {
      "epoch": 0.11645126548196015,
      "grad_norm": 0.28047338128089905,
      "learning_rate": 5e-05,
      "loss": 2.1032,
      "step": 4865
    },
    {
      "epoch": 0.11658589122240172,
      "grad_norm": 0.295043021440506,
      "learning_rate": 5e-05,
      "loss": 2.1846,
      "step": 4866
    },
    {
      "epoch": 0.1167205169628433,
      "grad_norm": 0.2540217638015747,
      "learning_rate": 5e-05,
      "loss": 1.7129,
      "step": 4867
    },
    {
      "epoch": 0.11685514270328487,
      "grad_norm": 0.3127223253250122,
      "learning_rate": 5e-05,
      "loss": 2.7035,
      "step": 4868
    },
    {
      "epoch": 0.11698976844372644,
      "grad_norm": 0.27334654331207275,
      "learning_rate": 5e-05,
      "loss": 2.0278,
      "step": 4869
    },
    {
      "epoch": 0.11712439418416801,
      "grad_norm": 0.2577630281448364,
      "learning_rate": 5e-05,
      "loss": 1.8977,
      "step": 4870
    },
    {
      "epoch": 0.11725901992460959,
      "grad_norm": 0.2533518671989441,
      "learning_rate": 5e-05,
      "loss": 1.841,
      "step": 4871
    },
    {
      "epoch": 0.11739364566505116,
      "grad_norm": 0.25752782821655273,
      "learning_rate": 5e-05,
      "loss": 2.1377,
      "step": 4872
    },
    {
      "epoch": 0.11752827140549273,
      "grad_norm": 0.266556978225708,
      "learning_rate": 5e-05,
      "loss": 2.0397,
      "step": 4873
    },
    {
      "epoch": 0.11766289714593431,
      "grad_norm": 0.24528096616268158,
      "learning_rate": 5e-05,
      "loss": 1.9222,
      "step": 4874
    },
    {
      "epoch": 0.11779752288637588,
      "grad_norm": 0.2928388714790344,
      "learning_rate": 5e-05,
      "loss": 2.0765,
      "step": 4875
    },
    {
      "epoch": 0.11793214862681745,
      "grad_norm": 0.2556203603744507,
      "learning_rate": 5e-05,
      "loss": 1.73,
      "step": 4876
    },
    {
      "epoch": 0.11806677436725901,
      "grad_norm": 0.33626851439476013,
      "learning_rate": 5e-05,
      "loss": 2.5115,
      "step": 4877
    },
    {
      "epoch": 0.1182014001077006,
      "grad_norm": 0.28109362721443176,
      "learning_rate": 5e-05,
      "loss": 2.1798,
      "step": 4878
    },
    {
      "epoch": 0.11833602584814217,
      "grad_norm": 0.2791825532913208,
      "learning_rate": 5e-05,
      "loss": 2.1473,
      "step": 4879
    },
    {
      "epoch": 0.11847065158858373,
      "grad_norm": 0.2998025119304657,
      "learning_rate": 5e-05,
      "loss": 2.323,
      "step": 4880
    },
    {
      "epoch": 0.11860527732902532,
      "grad_norm": 0.2683846950531006,
      "learning_rate": 5e-05,
      "loss": 1.8099,
      "step": 4881
    },
    {
      "epoch": 0.11873990306946688,
      "grad_norm": 0.25052952766418457,
      "learning_rate": 5e-05,
      "loss": 2.1176,
      "step": 4882
    },
    {
      "epoch": 0.11887452880990845,
      "grad_norm": 0.30692392587661743,
      "learning_rate": 5e-05,
      "loss": 2.7226,
      "step": 4883
    },
    {
      "epoch": 0.11900915455035002,
      "grad_norm": 0.26162514090538025,
      "learning_rate": 5e-05,
      "loss": 2.2074,
      "step": 4884
    },
    {
      "epoch": 0.1191437802907916,
      "grad_norm": 0.2582114338874817,
      "learning_rate": 5e-05,
      "loss": 2.074,
      "step": 4885
    },
    {
      "epoch": 0.11927840603123317,
      "grad_norm": 0.2588956654071808,
      "learning_rate": 5e-05,
      "loss": 1.8871,
      "step": 4886
    },
    {
      "epoch": 0.11941303177167474,
      "grad_norm": 0.23987977206707,
      "learning_rate": 5e-05,
      "loss": 1.68,
      "step": 4887
    },
    {
      "epoch": 0.11954765751211632,
      "grad_norm": 0.2559013366699219,
      "learning_rate": 5e-05,
      "loss": 1.8994,
      "step": 4888
    },
    {
      "epoch": 0.11968228325255789,
      "grad_norm": 0.26700425148010254,
      "learning_rate": 5e-05,
      "loss": 2.0935,
      "step": 4889
    },
    {
      "epoch": 0.11981690899299946,
      "grad_norm": 0.2465437948703766,
      "learning_rate": 5e-05,
      "loss": 1.8544,
      "step": 4890
    },
    {
      "epoch": 0.11995153473344103,
      "grad_norm": 0.3072460889816284,
      "learning_rate": 5e-05,
      "loss": 1.8825,
      "step": 4891
    },
    {
      "epoch": 0.12008616047388261,
      "grad_norm": 0.26889166235923767,
      "learning_rate": 5e-05,
      "loss": 2.0297,
      "step": 4892
    },
    {
      "epoch": 0.12022078621432418,
      "grad_norm": 0.26613524556159973,
      "learning_rate": 5e-05,
      "loss": 1.9427,
      "step": 4893
    },
    {
      "epoch": 0.12035541195476575,
      "grad_norm": 0.3073104918003082,
      "learning_rate": 5e-05,
      "loss": 2.1969,
      "step": 4894
    },
    {
      "epoch": 0.12049003769520733,
      "grad_norm": 0.29654860496520996,
      "learning_rate": 5e-05,
      "loss": 2.2787,
      "step": 4895
    },
    {
      "epoch": 0.1206246634356489,
      "grad_norm": 0.26198816299438477,
      "learning_rate": 5e-05,
      "loss": 2.3848,
      "step": 4896
    },
    {
      "epoch": 0.12075928917609047,
      "grad_norm": 0.27464163303375244,
      "learning_rate": 5e-05,
      "loss": 1.9701,
      "step": 4897
    },
    {
      "epoch": 0.12089391491653204,
      "grad_norm": 0.31454718112945557,
      "learning_rate": 5e-05,
      "loss": 2.5193,
      "step": 4898
    },
    {
      "epoch": 0.12102854065697362,
      "grad_norm": 0.2612415850162506,
      "learning_rate": 5e-05,
      "loss": 1.9751,
      "step": 4899
    },
    {
      "epoch": 0.12116316639741519,
      "grad_norm": 0.2549363970756531,
      "learning_rate": 5e-05,
      "loss": 1.7671,
      "step": 4900
    },
    {
      "epoch": 0.12129779213785676,
      "grad_norm": 0.2733936011791229,
      "learning_rate": 5e-05,
      "loss": 2.4557,
      "step": 4901
    },
    {
      "epoch": 0.12143241787829832,
      "grad_norm": 0.25127291679382324,
      "learning_rate": 5e-05,
      "loss": 1.7565,
      "step": 4902
    },
    {
      "epoch": 0.1215670436187399,
      "grad_norm": 0.30135378241539,
      "learning_rate": 5e-05,
      "loss": 2.7753,
      "step": 4903
    },
    {
      "epoch": 0.12170166935918147,
      "grad_norm": 0.2535989284515381,
      "learning_rate": 5e-05,
      "loss": 1.8873,
      "step": 4904
    },
    {
      "epoch": 0.12183629509962304,
      "grad_norm": 0.2893875241279602,
      "learning_rate": 5e-05,
      "loss": 2.085,
      "step": 4905
    },
    {
      "epoch": 0.12197092084006463,
      "grad_norm": 0.2522883415222168,
      "learning_rate": 5e-05,
      "loss": 1.7162,
      "step": 4906
    },
    {
      "epoch": 0.1221055465805062,
      "grad_norm": 0.23060046136379242,
      "learning_rate": 5e-05,
      "loss": 1.7591,
      "step": 4907
    },
    {
      "epoch": 0.12224017232094776,
      "grad_norm": 0.2758013904094696,
      "learning_rate": 5e-05,
      "loss": 1.9673,
      "step": 4908
    },
    {
      "epoch": 0.12237479806138933,
      "grad_norm": 0.28275638818740845,
      "learning_rate": 5e-05,
      "loss": 1.8564,
      "step": 4909
    },
    {
      "epoch": 0.12250942380183091,
      "grad_norm": 0.2520563006401062,
      "learning_rate": 5e-05,
      "loss": 1.827,
      "step": 4910
    },
    {
      "epoch": 0.12264404954227248,
      "grad_norm": 0.3306382894515991,
      "learning_rate": 5e-05,
      "loss": 2.6993,
      "step": 4911
    },
    {
      "epoch": 0.12277867528271405,
      "grad_norm": 0.2808580994606018,
      "learning_rate": 5e-05,
      "loss": 3.0027,
      "step": 4912
    },
    {
      "epoch": 0.12291330102315563,
      "grad_norm": 0.2695869207382202,
      "learning_rate": 5e-05,
      "loss": 2.2177,
      "step": 4913
    },
    {
      "epoch": 0.1230479267635972,
      "grad_norm": 0.27581146359443665,
      "learning_rate": 5e-05,
      "loss": 2.0872,
      "step": 4914
    },
    {
      "epoch": 0.12318255250403877,
      "grad_norm": 0.27188411355018616,
      "learning_rate": 5e-05,
      "loss": 2.0783,
      "step": 4915
    },
    {
      "epoch": 0.12331717824448034,
      "grad_norm": 0.28478261828422546,
      "learning_rate": 5e-05,
      "loss": 1.9846,
      "step": 4916
    },
    {
      "epoch": 0.12345180398492192,
      "grad_norm": 0.2529967427253723,
      "learning_rate": 5e-05,
      "loss": 1.8147,
      "step": 4917
    },
    {
      "epoch": 0.12358642972536349,
      "grad_norm": 0.27864089608192444,
      "learning_rate": 5e-05,
      "loss": 2.2022,
      "step": 4918
    },
    {
      "epoch": 0.12372105546580506,
      "grad_norm": 0.275277316570282,
      "learning_rate": 5e-05,
      "loss": 1.7429,
      "step": 4919
    },
    {
      "epoch": 0.12385568120624664,
      "grad_norm": 0.293962687253952,
      "learning_rate": 5e-05,
      "loss": 2.8428,
      "step": 4920
    },
    {
      "epoch": 0.12399030694668821,
      "grad_norm": 0.356356143951416,
      "learning_rate": 5e-05,
      "loss": 1.8951,
      "step": 4921
    },
    {
      "epoch": 0.12412493268712978,
      "grad_norm": 0.28522568941116333,
      "learning_rate": 5e-05,
      "loss": 2.8331,
      "step": 4922
    },
    {
      "epoch": 0.12425955842757135,
      "grad_norm": 0.2963499128818512,
      "learning_rate": 5e-05,
      "loss": 2.8105,
      "step": 4923
    },
    {
      "epoch": 0.12439418416801293,
      "grad_norm": 0.2794323265552521,
      "learning_rate": 5e-05,
      "loss": 2.0918,
      "step": 4924
    },
    {
      "epoch": 0.1245288099084545,
      "grad_norm": 0.2945839762687683,
      "learning_rate": 5e-05,
      "loss": 2.2075,
      "step": 4925
    },
    {
      "epoch": 0.12466343564889606,
      "grad_norm": 0.28206172585487366,
      "learning_rate": 5e-05,
      "loss": 1.9467,
      "step": 4926
    },
    {
      "epoch": 0.12479806138933765,
      "grad_norm": 0.2696501910686493,
      "learning_rate": 5e-05,
      "loss": 1.9052,
      "step": 4927
    },
    {
      "epoch": 0.12493268712977922,
      "grad_norm": 0.26435917615890503,
      "learning_rate": 5e-05,
      "loss": 1.965,
      "step": 4928
    },
    {
      "epoch": 0.1250673128702208,
      "grad_norm": 0.24885736405849457,
      "learning_rate": 5e-05,
      "loss": 1.7199,
      "step": 4929
    },
    {
      "epoch": 0.12520193861066237,
      "grad_norm": 0.24638354778289795,
      "learning_rate": 5e-05,
      "loss": 1.7513,
      "step": 4930
    },
    {
      "epoch": 0.12533656435110394,
      "grad_norm": 0.2903524935245514,
      "learning_rate": 5e-05,
      "loss": 2.1837,
      "step": 4931
    },
    {
      "epoch": 0.1254711900915455,
      "grad_norm": 0.2610596716403961,
      "learning_rate": 5e-05,
      "loss": 1.7476,
      "step": 4932
    },
    {
      "epoch": 0.12560581583198707,
      "grad_norm": 0.45375707745552063,
      "learning_rate": 5e-05,
      "loss": 3.3511,
      "step": 4933
    },
    {
      "epoch": 0.12574044157242864,
      "grad_norm": 0.26173293590545654,
      "learning_rate": 5e-05,
      "loss": 1.92,
      "step": 4934
    },
    {
      "epoch": 0.1258750673128702,
      "grad_norm": 0.26581886410713196,
      "learning_rate": 5e-05,
      "loss": 1.8144,
      "step": 4935
    },
    {
      "epoch": 0.1260096930533118,
      "grad_norm": 0.31585755944252014,
      "learning_rate": 5e-05,
      "loss": 3.0664,
      "step": 4936
    },
    {
      "epoch": 0.12614431879375337,
      "grad_norm": 0.3239448070526123,
      "learning_rate": 5e-05,
      "loss": 2.3468,
      "step": 4937
    },
    {
      "epoch": 0.12627894453419494,
      "grad_norm": 0.27135083079338074,
      "learning_rate": 5e-05,
      "loss": 1.9309,
      "step": 4938
    },
    {
      "epoch": 0.1264135702746365,
      "grad_norm": 0.2891092300415039,
      "learning_rate": 5e-05,
      "loss": 2.4968,
      "step": 4939
    },
    {
      "epoch": 0.12654819601507808,
      "grad_norm": 0.3020598888397217,
      "learning_rate": 5e-05,
      "loss": 2.5175,
      "step": 4940
    },
    {
      "epoch": 0.12668282175551965,
      "grad_norm": 0.2686030864715576,
      "learning_rate": 5e-05,
      "loss": 2.0198,
      "step": 4941
    },
    {
      "epoch": 0.12681744749596122,
      "grad_norm": 0.3219406306743622,
      "learning_rate": 5e-05,
      "loss": 2.9811,
      "step": 4942
    },
    {
      "epoch": 0.1269520732364028,
      "grad_norm": 0.27410104870796204,
      "learning_rate": 5e-05,
      "loss": 2.1731,
      "step": 4943
    },
    {
      "epoch": 0.12708669897684438,
      "grad_norm": 0.28510674834251404,
      "learning_rate": 5e-05,
      "loss": 1.9478,
      "step": 4944
    },
    {
      "epoch": 0.12722132471728595,
      "grad_norm": 0.28291428089141846,
      "learning_rate": 5e-05,
      "loss": 2.5591,
      "step": 4945
    },
    {
      "epoch": 0.12735595045772752,
      "grad_norm": 0.31402188539505005,
      "learning_rate": 5e-05,
      "loss": 2.1936,
      "step": 4946
    },
    {
      "epoch": 0.1274905761981691,
      "grad_norm": 0.29402396082878113,
      "learning_rate": 5e-05,
      "loss": 2.0811,
      "step": 4947
    },
    {
      "epoch": 0.12762520193861066,
      "grad_norm": 0.27705514430999756,
      "learning_rate": 5e-05,
      "loss": 1.9465,
      "step": 4948
    },
    {
      "epoch": 0.12775982767905222,
      "grad_norm": 0.2625669538974762,
      "learning_rate": 5e-05,
      "loss": 1.8799,
      "step": 4949
    },
    {
      "epoch": 0.12789445341949382,
      "grad_norm": 0.28645437955856323,
      "learning_rate": 5e-05,
      "loss": 2.5218,
      "step": 4950
    },
    {
      "epoch": 0.1280290791599354,
      "grad_norm": 0.2604663670063019,
      "learning_rate": 5e-05,
      "loss": 1.7618,
      "step": 4951
    },
    {
      "epoch": 0.12816370490037696,
      "grad_norm": 0.25737106800079346,
      "learning_rate": 5e-05,
      "loss": 1.8673,
      "step": 4952
    },
    {
      "epoch": 0.12829833064081853,
      "grad_norm": 0.24323777854442596,
      "learning_rate": 5e-05,
      "loss": 1.9573,
      "step": 4953
    },
    {
      "epoch": 0.1284329563812601,
      "grad_norm": 0.2627663314342499,
      "learning_rate": 5e-05,
      "loss": 1.9959,
      "step": 4954
    },
    {
      "epoch": 0.12856758212170166,
      "grad_norm": 0.27049562335014343,
      "learning_rate": 5e-05,
      "loss": 1.8007,
      "step": 4955
    },
    {
      "epoch": 0.12870220786214323,
      "grad_norm": 0.2591110169887543,
      "learning_rate": 5e-05,
      "loss": 1.8515,
      "step": 4956
    },
    {
      "epoch": 0.12883683360258483,
      "grad_norm": 0.2531648278236389,
      "learning_rate": 5e-05,
      "loss": 1.6377,
      "step": 4957
    },
    {
      "epoch": 0.1289714593430264,
      "grad_norm": 0.26522669196128845,
      "learning_rate": 5e-05,
      "loss": 1.9284,
      "step": 4958
    },
    {
      "epoch": 0.12910608508346796,
      "grad_norm": 0.3199740946292877,
      "learning_rate": 5e-05,
      "loss": 2.6158,
      "step": 4959
    },
    {
      "epoch": 0.12924071082390953,
      "grad_norm": 0.2519426941871643,
      "learning_rate": 5e-05,
      "loss": 1.7176,
      "step": 4960
    },
    {
      "epoch": 0.1293753365643511,
      "grad_norm": 0.25234273076057434,
      "learning_rate": 5e-05,
      "loss": 1.8617,
      "step": 4961
    },
    {
      "epoch": 0.12950996230479267,
      "grad_norm": 0.2729869782924652,
      "learning_rate": 5e-05,
      "loss": 2.0531,
      "step": 4962
    },
    {
      "epoch": 0.12964458804523424,
      "grad_norm": 0.27108848094940186,
      "learning_rate": 5e-05,
      "loss": 2.0281,
      "step": 4963
    },
    {
      "epoch": 0.12977921378567583,
      "grad_norm": 0.2604452669620514,
      "learning_rate": 5e-05,
      "loss": 1.9804,
      "step": 4964
    },
    {
      "epoch": 0.1299138395261174,
      "grad_norm": 0.29033172130584717,
      "learning_rate": 5e-05,
      "loss": 2.1004,
      "step": 4965
    },
    {
      "epoch": 0.13004846526655897,
      "grad_norm": 0.286782443523407,
      "learning_rate": 5e-05,
      "loss": 2.2811,
      "step": 4966
    },
    {
      "epoch": 0.13018309100700054,
      "grad_norm": 0.2631824016571045,
      "learning_rate": 5e-05,
      "loss": 1.7369,
      "step": 4967
    },
    {
      "epoch": 0.1303177167474421,
      "grad_norm": 0.36639273166656494,
      "learning_rate": 5e-05,
      "loss": 2.518,
      "step": 4968
    },
    {
      "epoch": 0.13045234248788368,
      "grad_norm": 0.27693766355514526,
      "learning_rate": 5e-05,
      "loss": 1.8306,
      "step": 4969
    },
    {
      "epoch": 0.13058696822832525,
      "grad_norm": 0.25330501794815063,
      "learning_rate": 5e-05,
      "loss": 1.9225,
      "step": 4970
    },
    {
      "epoch": 0.13072159396876684,
      "grad_norm": 0.3048696517944336,
      "learning_rate": 5e-05,
      "loss": 2.8783,
      "step": 4971
    },
    {
      "epoch": 0.1308562197092084,
      "grad_norm": 0.2575843334197998,
      "learning_rate": 5e-05,
      "loss": 2.0392,
      "step": 4972
    },
    {
      "epoch": 0.13099084544964998,
      "grad_norm": 0.2736339867115021,
      "learning_rate": 5e-05,
      "loss": 1.9388,
      "step": 4973
    },
    {
      "epoch": 0.13112547119009155,
      "grad_norm": 0.2635461390018463,
      "learning_rate": 5e-05,
      "loss": 2.4754,
      "step": 4974
    },
    {
      "epoch": 0.13126009693053312,
      "grad_norm": 0.28694507479667664,
      "learning_rate": 5e-05,
      "loss": 1.9567,
      "step": 4975
    },
    {
      "epoch": 0.13139472267097468,
      "grad_norm": 0.26924121379852295,
      "learning_rate": 5e-05,
      "loss": 1.9431,
      "step": 4976
    },
    {
      "epoch": 0.13152934841141625,
      "grad_norm": 0.2440740168094635,
      "learning_rate": 5e-05,
      "loss": 2.0175,
      "step": 4977
    },
    {
      "epoch": 0.13166397415185785,
      "grad_norm": 0.2577245533466339,
      "learning_rate": 5e-05,
      "loss": 1.6275,
      "step": 4978
    },
    {
      "epoch": 0.13179859989229942,
      "grad_norm": 0.2682565152645111,
      "learning_rate": 5e-05,
      "loss": 1.8594,
      "step": 4979
    },
    {
      "epoch": 0.13193322563274099,
      "grad_norm": 0.24199296534061432,
      "learning_rate": 5e-05,
      "loss": 1.9296,
      "step": 4980
    },
    {
      "epoch": 0.13206785137318255,
      "grad_norm": 0.26390233635902405,
      "learning_rate": 5e-05,
      "loss": 1.7935,
      "step": 4981
    },
    {
      "epoch": 0.13220247711362412,
      "grad_norm": 0.24263609945774078,
      "learning_rate": 5e-05,
      "loss": 1.8217,
      "step": 4982
    },
    {
      "epoch": 0.1323371028540657,
      "grad_norm": 0.30669543147087097,
      "learning_rate": 5e-05,
      "loss": 2.3251,
      "step": 4983
    },
    {
      "epoch": 0.13247172859450726,
      "grad_norm": 0.24181777238845825,
      "learning_rate": 5e-05,
      "loss": 1.9703,
      "step": 4984
    },
    {
      "epoch": 0.13260635433494886,
      "grad_norm": 0.25676634907722473,
      "learning_rate": 5e-05,
      "loss": 1.6706,
      "step": 4985
    },
    {
      "epoch": 0.13274098007539042,
      "grad_norm": 0.2762829661369324,
      "learning_rate": 5e-05,
      "loss": 1.8736,
      "step": 4986
    },
    {
      "epoch": 0.132875605815832,
      "grad_norm": 0.25628772377967834,
      "learning_rate": 5e-05,
      "loss": 1.7459,
      "step": 4987
    },
    {
      "epoch": 0.13301023155627356,
      "grad_norm": 0.310655415058136,
      "learning_rate": 5e-05,
      "loss": 2.7978,
      "step": 4988
    },
    {
      "epoch": 0.13314485729671513,
      "grad_norm": 0.2614535689353943,
      "learning_rate": 5e-05,
      "loss": 2.0381,
      "step": 4989
    },
    {
      "epoch": 0.1332794830371567,
      "grad_norm": 0.2539672553539276,
      "learning_rate": 5e-05,
      "loss": 1.6734,
      "step": 4990
    },
    {
      "epoch": 0.13341410877759827,
      "grad_norm": 0.2632580101490021,
      "learning_rate": 5e-05,
      "loss": 1.8503,
      "step": 4991
    },
    {
      "epoch": 0.13354873451803984,
      "grad_norm": 0.3308599591255188,
      "learning_rate": 5e-05,
      "loss": 2.3509,
      "step": 4992
    },
    {
      "epoch": 0.13368336025848143,
      "grad_norm": 0.322794109582901,
      "learning_rate": 5e-05,
      "loss": 2.413,
      "step": 4993
    },
    {
      "epoch": 0.133817985998923,
      "grad_norm": 0.27278974652290344,
      "learning_rate": 5e-05,
      "loss": 1.9903,
      "step": 4994
    },
    {
      "epoch": 0.13395261173936457,
      "grad_norm": 0.25383925437927246,
      "learning_rate": 5e-05,
      "loss": 1.7204,
      "step": 4995
    },
    {
      "epoch": 0.13408723747980614,
      "grad_norm": 0.29564905166625977,
      "learning_rate": 5e-05,
      "loss": 1.9363,
      "step": 4996
    },
    {
      "epoch": 0.1342218632202477,
      "grad_norm": 0.33682921528816223,
      "learning_rate": 5e-05,
      "loss": 2.4964,
      "step": 4997
    },
    {
      "epoch": 0.13435648896068927,
      "grad_norm": 0.3032186031341553,
      "learning_rate": 5e-05,
      "loss": 2.0066,
      "step": 4998
    },
    {
      "epoch": 0.13449111470113084,
      "grad_norm": 0.265913188457489,
      "learning_rate": 5e-05,
      "loss": 2.025,
      "step": 4999
    },
    {
      "epoch": 0.13462574044157244,
      "grad_norm": 0.34202274680137634,
      "learning_rate": 5e-05,
      "loss": 2.8498,
      "step": 5000
    },
    {
      "epoch": 0.134760366182014,
      "grad_norm": 0.2802564203739166,
      "learning_rate": 5e-05,
      "loss": 2.2983,
      "step": 5001
    },
    {
      "epoch": 0.13489499192245558,
      "grad_norm": 0.2634837031364441,
      "learning_rate": 5e-05,
      "loss": 1.9776,
      "step": 5002
    },
    {
      "epoch": 0.13502961766289714,
      "grad_norm": 0.30537042021751404,
      "learning_rate": 5e-05,
      "loss": 2.2598,
      "step": 5003
    },
    {
      "epoch": 0.1351642434033387,
      "grad_norm": 0.3310018479824066,
      "learning_rate": 5e-05,
      "loss": 2.6141,
      "step": 5004
    },
    {
      "epoch": 0.13529886914378028,
      "grad_norm": 0.25746598839759827,
      "learning_rate": 5e-05,
      "loss": 1.7407,
      "step": 5005
    },
    {
      "epoch": 0.13543349488422185,
      "grad_norm": 0.3002123236656189,
      "learning_rate": 5e-05,
      "loss": 2.0924,
      "step": 5006
    },
    {
      "epoch": 0.13556812062466345,
      "grad_norm": 0.26017582416534424,
      "learning_rate": 5e-05,
      "loss": 1.9216,
      "step": 5007
    },
    {
      "epoch": 0.13570274636510501,
      "grad_norm": 0.24276739358901978,
      "learning_rate": 5e-05,
      "loss": 1.8481,
      "step": 5008
    },
    {
      "epoch": 0.13583737210554658,
      "grad_norm": 0.2996441721916199,
      "learning_rate": 5e-05,
      "loss": 2.4056,
      "step": 5009
    },
    {
      "epoch": 0.13597199784598815,
      "grad_norm": 0.2566816508769989,
      "learning_rate": 5e-05,
      "loss": 1.6678,
      "step": 5010
    },
    {
      "epoch": 0.13610662358642972,
      "grad_norm": 0.26712220907211304,
      "learning_rate": 5e-05,
      "loss": 1.8443,
      "step": 5011
    },
    {
      "epoch": 0.1362412493268713,
      "grad_norm": 0.295839786529541,
      "learning_rate": 5e-05,
      "loss": 1.9028,
      "step": 5012
    },
    {
      "epoch": 0.13637587506731286,
      "grad_norm": 0.27843332290649414,
      "learning_rate": 5e-05,
      "loss": 2.252,
      "step": 5013
    },
    {
      "epoch": 0.13651050080775445,
      "grad_norm": 0.2489214837551117,
      "learning_rate": 5e-05,
      "loss": 1.7738,
      "step": 5014
    },
    {
      "epoch": 0.13664512654819602,
      "grad_norm": 0.28191620111465454,
      "learning_rate": 5e-05,
      "loss": 2.0,
      "step": 5015
    },
    {
      "epoch": 0.1367797522886376,
      "grad_norm": 0.25427761673927307,
      "learning_rate": 5e-05,
      "loss": 1.8145,
      "step": 5016
    },
    {
      "epoch": 0.13691437802907916,
      "grad_norm": 0.2702697515487671,
      "learning_rate": 5e-05,
      "loss": 2.0553,
      "step": 5017
    },
    {
      "epoch": 0.13704900376952073,
      "grad_norm": 0.27670159935951233,
      "learning_rate": 5e-05,
      "loss": 1.8726,
      "step": 5018
    },
    {
      "epoch": 0.1371836295099623,
      "grad_norm": 0.301899254322052,
      "learning_rate": 5e-05,
      "loss": 2.3365,
      "step": 5019
    },
    {
      "epoch": 0.13731825525040386,
      "grad_norm": 0.27996957302093506,
      "learning_rate": 5e-05,
      "loss": 2.1901,
      "step": 5020
    },
    {
      "epoch": 0.13745288099084546,
      "grad_norm": 0.2856862545013428,
      "learning_rate": 5e-05,
      "loss": 1.9211,
      "step": 5021
    },
    {
      "epoch": 0.13758750673128703,
      "grad_norm": 0.2796837091445923,
      "learning_rate": 5e-05,
      "loss": 1.8246,
      "step": 5022
    },
    {
      "epoch": 0.1377221324717286,
      "grad_norm": 0.2684590816497803,
      "learning_rate": 5e-05,
      "loss": 1.9713,
      "step": 5023
    },
    {
      "epoch": 0.13785675821217017,
      "grad_norm": 0.2883986234664917,
      "learning_rate": 5e-05,
      "loss": 2.2274,
      "step": 5024
    },
    {
      "epoch": 0.13799138395261173,
      "grad_norm": 0.263192355632782,
      "learning_rate": 5e-05,
      "loss": 1.6966,
      "step": 5025
    },
    {
      "epoch": 0.1381260096930533,
      "grad_norm": 0.2620466649532318,
      "learning_rate": 5e-05,
      "loss": 1.8391,
      "step": 5026
    },
    {
      "epoch": 0.13826063543349487,
      "grad_norm": 0.3371765613555908,
      "learning_rate": 5e-05,
      "loss": 2.483,
      "step": 5027
    },
    {
      "epoch": 0.13839526117393647,
      "grad_norm": 0.2532725930213928,
      "learning_rate": 5e-05,
      "loss": 1.6921,
      "step": 5028
    },
    {
      "epoch": 0.13852988691437804,
      "grad_norm": 0.2583380937576294,
      "learning_rate": 5e-05,
      "loss": 1.7921,
      "step": 5029
    },
    {
      "epoch": 0.1386645126548196,
      "grad_norm": 0.34198907017707825,
      "learning_rate": 5e-05,
      "loss": 2.539,
      "step": 5030
    },
    {
      "epoch": 0.13879913839526117,
      "grad_norm": 0.27285000681877136,
      "learning_rate": 5e-05,
      "loss": 1.9455,
      "step": 5031
    },
    {
      "epoch": 0.13893376413570274,
      "grad_norm": 0.4597189128398895,
      "learning_rate": 5e-05,
      "loss": 2.5474,
      "step": 5032
    },
    {
      "epoch": 0.1390683898761443,
      "grad_norm": 0.27706071734428406,
      "learning_rate": 5e-05,
      "loss": 2.1125,
      "step": 5033
    },
    {
      "epoch": 0.13920301561658588,
      "grad_norm": 0.5150168538093567,
      "learning_rate": 5e-05,
      "loss": 3.0489,
      "step": 5034
    },
    {
      "epoch": 0.13933764135702748,
      "grad_norm": 0.24563106894493103,
      "learning_rate": 5e-05,
      "loss": 1.9162,
      "step": 5035
    },
    {
      "epoch": 0.13947226709746904,
      "grad_norm": 0.23903441429138184,
      "learning_rate": 5e-05,
      "loss": 1.4811,
      "step": 5036
    },
    {
      "epoch": 0.1396068928379106,
      "grad_norm": 0.2668275833129883,
      "learning_rate": 5e-05,
      "loss": 2.0954,
      "step": 5037
    },
    {
      "epoch": 0.13974151857835218,
      "grad_norm": 0.2658820152282715,
      "learning_rate": 5e-05,
      "loss": 2.0218,
      "step": 5038
    },
    {
      "epoch": 0.13987614431879375,
      "grad_norm": 0.2718076705932617,
      "learning_rate": 5e-05,
      "loss": 2.1015,
      "step": 5039
    },
    {
      "epoch": 0.14001077005923532,
      "grad_norm": 0.2638798952102661,
      "learning_rate": 5e-05,
      "loss": 1.9509,
      "step": 5040
    },
    {
      "epoch": 0.1401453957996769,
      "grad_norm": 0.24571339786052704,
      "learning_rate": 5e-05,
      "loss": 1.6807,
      "step": 5041
    },
    {
      "epoch": 0.14028002154011848,
      "grad_norm": 0.25238561630249023,
      "learning_rate": 5e-05,
      "loss": 1.8017,
      "step": 5042
    },
    {
      "epoch": 0.14041464728056005,
      "grad_norm": 0.251905232667923,
      "learning_rate": 5e-05,
      "loss": 1.7515,
      "step": 5043
    },
    {
      "epoch": 0.14054927302100162,
      "grad_norm": 0.2521718740463257,
      "learning_rate": 5e-05,
      "loss": 2.1016,
      "step": 5044
    },
    {
      "epoch": 0.1406838987614432,
      "grad_norm": 0.37145280838012695,
      "learning_rate": 5e-05,
      "loss": 3.1472,
      "step": 5045
    },
    {
      "epoch": 0.14081852450188476,
      "grad_norm": 0.26865532994270325,
      "learning_rate": 5e-05,
      "loss": 1.9665,
      "step": 5046
    },
    {
      "epoch": 0.14095315024232632,
      "grad_norm": 0.26111549139022827,
      "learning_rate": 5e-05,
      "loss": 1.8527,
      "step": 5047
    },
    {
      "epoch": 0.1410877759827679,
      "grad_norm": 0.25727126002311707,
      "learning_rate": 5e-05,
      "loss": 1.7685,
      "step": 5048
    },
    {
      "epoch": 0.1412224017232095,
      "grad_norm": 0.2510139048099518,
      "learning_rate": 5e-05,
      "loss": 1.7428,
      "step": 5049
    },
    {
      "epoch": 0.14135702746365106,
      "grad_norm": 0.2855156660079956,
      "learning_rate": 5e-05,
      "loss": 1.8866,
      "step": 5050
    },
    {
      "epoch": 0.14149165320409263,
      "grad_norm": 0.2505740225315094,
      "learning_rate": 5e-05,
      "loss": 1.9496,
      "step": 5051
    },
    {
      "epoch": 0.1416262789445342,
      "grad_norm": 0.24878917634487152,
      "learning_rate": 5e-05,
      "loss": 2.0005,
      "step": 5052
    },
    {
      "epoch": 0.14176090468497576,
      "grad_norm": 0.3126697242259979,
      "learning_rate": 5e-05,
      "loss": 2.1857,
      "step": 5053
    },
    {
      "epoch": 0.14189553042541733,
      "grad_norm": 0.31193408370018005,
      "learning_rate": 5e-05,
      "loss": 2.0893,
      "step": 5054
    },
    {
      "epoch": 0.1420301561658589,
      "grad_norm": 0.33819523453712463,
      "learning_rate": 5e-05,
      "loss": 2.9343,
      "step": 5055
    },
    {
      "epoch": 0.1421647819063005,
      "grad_norm": 0.31829705834388733,
      "learning_rate": 5e-05,
      "loss": 2.0814,
      "step": 5056
    },
    {
      "epoch": 0.14229940764674207,
      "grad_norm": 0.2743894159793854,
      "learning_rate": 5e-05,
      "loss": 1.8187,
      "step": 5057
    },
    {
      "epoch": 0.14243403338718363,
      "grad_norm": 0.38850176334381104,
      "learning_rate": 5e-05,
      "loss": 3.168,
      "step": 5058
    },
    {
      "epoch": 0.1425686591276252,
      "grad_norm": 0.2485634684562683,
      "learning_rate": 5e-05,
      "loss": 1.8042,
      "step": 5059
    },
    {
      "epoch": 0.14270328486806677,
      "grad_norm": 0.2560514509677887,
      "learning_rate": 5e-05,
      "loss": 1.9198,
      "step": 5060
    },
    {
      "epoch": 0.14283791060850834,
      "grad_norm": 0.25751909613609314,
      "learning_rate": 5e-05,
      "loss": 1.8241,
      "step": 5061
    },
    {
      "epoch": 0.1429725363489499,
      "grad_norm": 0.29283830523490906,
      "learning_rate": 5e-05,
      "loss": 1.9367,
      "step": 5062
    },
    {
      "epoch": 0.1431071620893915,
      "grad_norm": 0.25903695821762085,
      "learning_rate": 5e-05,
      "loss": 1.9377,
      "step": 5063
    },
    {
      "epoch": 0.14324178782983307,
      "grad_norm": 0.25827232003211975,
      "learning_rate": 5e-05,
      "loss": 1.9389,
      "step": 5064
    },
    {
      "epoch": 0.14337641357027464,
      "grad_norm": 0.28713029623031616,
      "learning_rate": 5e-05,
      "loss": 2.8505,
      "step": 5065
    },
    {
      "epoch": 0.1435110393107162,
      "grad_norm": 0.26214608550071716,
      "learning_rate": 5e-05,
      "loss": 1.803,
      "step": 5066
    },
    {
      "epoch": 0.14364566505115778,
      "grad_norm": 0.40208277106285095,
      "learning_rate": 5e-05,
      "loss": 3.314,
      "step": 5067
    },
    {
      "epoch": 0.14378029079159935,
      "grad_norm": 0.28074365854263306,
      "learning_rate": 5e-05,
      "loss": 1.7832,
      "step": 5068
    },
    {
      "epoch": 0.14391491653204092,
      "grad_norm": 0.29614806175231934,
      "learning_rate": 5e-05,
      "loss": 1.9291,
      "step": 5069
    },
    {
      "epoch": 0.1440495422724825,
      "grad_norm": 0.3141106963157654,
      "learning_rate": 5e-05,
      "loss": 1.9026,
      "step": 5070
    },
    {
      "epoch": 0.14418416801292408,
      "grad_norm": 0.253160297870636,
      "learning_rate": 5e-05,
      "loss": 1.9189,
      "step": 5071
    },
    {
      "epoch": 0.14431879375336565,
      "grad_norm": 0.29582151770591736,
      "learning_rate": 5e-05,
      "loss": 2.5562,
      "step": 5072
    },
    {
      "epoch": 0.14445341949380722,
      "grad_norm": 0.27679577469825745,
      "learning_rate": 5e-05,
      "loss": 2.1124,
      "step": 5073
    },
    {
      "epoch": 0.14458804523424879,
      "grad_norm": 0.2608523666858673,
      "learning_rate": 5e-05,
      "loss": 1.5841,
      "step": 5074
    },
    {
      "epoch": 0.14472267097469035,
      "grad_norm": 0.27532732486724854,
      "learning_rate": 5e-05,
      "loss": 1.9442,
      "step": 5075
    },
    {
      "epoch": 0.14485729671513192,
      "grad_norm": 0.3402892053127289,
      "learning_rate": 5e-05,
      "loss": 2.4191,
      "step": 5076
    },
    {
      "epoch": 0.14499192245557352,
      "grad_norm": 0.28281915187835693,
      "learning_rate": 5e-05,
      "loss": 2.2529,
      "step": 5077
    },
    {
      "epoch": 0.1451265481960151,
      "grad_norm": 0.25237026810646057,
      "learning_rate": 5e-05,
      "loss": 1.8446,
      "step": 5078
    },
    {
      "epoch": 0.14526117393645666,
      "grad_norm": 0.3105354309082031,
      "learning_rate": 5e-05,
      "loss": 2.549,
      "step": 5079
    },
    {
      "epoch": 0.14539579967689822,
      "grad_norm": 0.26975658535957336,
      "learning_rate": 5e-05,
      "loss": 1.6766,
      "step": 5080
    },
    {
      "epoch": 0.1455304254173398,
      "grad_norm": 0.24602413177490234,
      "learning_rate": 5e-05,
      "loss": 1.6465,
      "step": 5081
    },
    {
      "epoch": 0.14566505115778136,
      "grad_norm": 0.29709771275520325,
      "learning_rate": 5e-05,
      "loss": 3.0336,
      "step": 5082
    },
    {
      "epoch": 0.14579967689822293,
      "grad_norm": 0.3814682960510254,
      "learning_rate": 5e-05,
      "loss": 2.0795,
      "step": 5083
    },
    {
      "epoch": 0.14593430263866453,
      "grad_norm": 0.26502811908721924,
      "learning_rate": 5e-05,
      "loss": 1.7754,
      "step": 5084
    },
    {
      "epoch": 0.1460689283791061,
      "grad_norm": 0.28756266832351685,
      "learning_rate": 5e-05,
      "loss": 2.1512,
      "step": 5085
    },
    {
      "epoch": 0.14620355411954766,
      "grad_norm": 0.27104729413986206,
      "learning_rate": 5e-05,
      "loss": 2.1114,
      "step": 5086
    },
    {
      "epoch": 0.14633817985998923,
      "grad_norm": 0.2515178620815277,
      "learning_rate": 5e-05,
      "loss": 1.7153,
      "step": 5087
    },
    {
      "epoch": 0.1464728056004308,
      "grad_norm": 0.29249343276023865,
      "learning_rate": 5e-05,
      "loss": 2.1296,
      "step": 5088
    },
    {
      "epoch": 0.14660743134087237,
      "grad_norm": 0.2752836346626282,
      "learning_rate": 5e-05,
      "loss": 1.9895,
      "step": 5089
    },
    {
      "epoch": 0.14674205708131394,
      "grad_norm": 0.2647254467010498,
      "learning_rate": 5e-05,
      "loss": 1.943,
      "step": 5090
    },
    {
      "epoch": 0.14687668282175553,
      "grad_norm": 0.2924003303050995,
      "learning_rate": 5e-05,
      "loss": 2.0527,
      "step": 5091
    },
    {
      "epoch": 0.1470113085621971,
      "grad_norm": 0.2546445429325104,
      "learning_rate": 5e-05,
      "loss": 1.6585,
      "step": 5092
    },
    {
      "epoch": 0.14714593430263867,
      "grad_norm": 0.29249057173728943,
      "learning_rate": 5e-05,
      "loss": 2.2001,
      "step": 5093
    },
    {
      "epoch": 0.14728056004308024,
      "grad_norm": 0.26730233430862427,
      "learning_rate": 5e-05,
      "loss": 2.1326,
      "step": 5094
    },
    {
      "epoch": 0.1474151857835218,
      "grad_norm": 0.2680869400501251,
      "learning_rate": 5e-05,
      "loss": 2.1828,
      "step": 5095
    },
    {
      "epoch": 0.14754981152396338,
      "grad_norm": 0.2618114948272705,
      "learning_rate": 5e-05,
      "loss": 1.8362,
      "step": 5096
    },
    {
      "epoch": 0.14768443726440494,
      "grad_norm": 0.25437524914741516,
      "learning_rate": 5e-05,
      "loss": 2.2929,
      "step": 5097
    },
    {
      "epoch": 0.14781906300484654,
      "grad_norm": 0.2726198732852936,
      "learning_rate": 5e-05,
      "loss": 1.7971,
      "step": 5098
    },
    {
      "epoch": 0.1479536887452881,
      "grad_norm": 0.2972756624221802,
      "learning_rate": 5e-05,
      "loss": 1.9636,
      "step": 5099
    },
    {
      "epoch": 0.14808831448572968,
      "grad_norm": 0.2975251078605652,
      "learning_rate": 5e-05,
      "loss": 2.2218,
      "step": 5100
    },
    {
      "epoch": 0.14822294022617125,
      "grad_norm": 0.2759931981563568,
      "learning_rate": 5e-05,
      "loss": 2.2621,
      "step": 5101
    },
    {
      "epoch": 0.14835756596661281,
      "grad_norm": 0.2590547502040863,
      "learning_rate": 5e-05,
      "loss": 2.0689,
      "step": 5102
    },
    {
      "epoch": 0.14849219170705438,
      "grad_norm": 0.4650578498840332,
      "learning_rate": 5e-05,
      "loss": 3.0726,
      "step": 5103
    },
    {
      "epoch": 0.14862681744749595,
      "grad_norm": 0.3326052129268646,
      "learning_rate": 5e-05,
      "loss": 2.0321,
      "step": 5104
    },
    {
      "epoch": 0.14876144318793752,
      "grad_norm": 0.27091190218925476,
      "learning_rate": 5e-05,
      "loss": 1.8608,
      "step": 5105
    },
    {
      "epoch": 0.14889606892837912,
      "grad_norm": 0.3743153512477875,
      "learning_rate": 5e-05,
      "loss": 2.3112,
      "step": 5106
    },
    {
      "epoch": 0.14903069466882068,
      "grad_norm": 0.28645092248916626,
      "learning_rate": 5e-05,
      "loss": 1.9745,
      "step": 5107
    },
    {
      "epoch": 0.14916532040926225,
      "grad_norm": 0.3284735381603241,
      "learning_rate": 5e-05,
      "loss": 2.2722,
      "step": 5108
    },
    {
      "epoch": 0.14929994614970382,
      "grad_norm": 0.25634896755218506,
      "learning_rate": 5e-05,
      "loss": 1.9866,
      "step": 5109
    },
    {
      "epoch": 0.1494345718901454,
      "grad_norm": 0.28788813948631287,
      "learning_rate": 5e-05,
      "loss": 2.1632,
      "step": 5110
    },
    {
      "epoch": 0.14956919763058696,
      "grad_norm": 0.2806718647480011,
      "learning_rate": 5e-05,
      "loss": 2.2514,
      "step": 5111
    },
    {
      "epoch": 0.14970382337102853,
      "grad_norm": 0.3351936340332031,
      "learning_rate": 5e-05,
      "loss": 3.0487,
      "step": 5112
    },
    {
      "epoch": 0.14983844911147012,
      "grad_norm": 0.2634466588497162,
      "learning_rate": 5e-05,
      "loss": 1.8834,
      "step": 5113
    },
    {
      "epoch": 0.1499730748519117,
      "grad_norm": 0.2627522349357605,
      "learning_rate": 5e-05,
      "loss": 1.8417,
      "step": 5114
    },
    {
      "epoch": 0.15010770059235326,
      "grad_norm": 0.25403448939323425,
      "learning_rate": 5e-05,
      "loss": 1.7924,
      "step": 5115
    },
    {
      "epoch": 0.15024232633279483,
      "grad_norm": 0.24318112432956696,
      "learning_rate": 5e-05,
      "loss": 1.7062,
      "step": 5116
    },
    {
      "epoch": 0.1503769520732364,
      "grad_norm": 0.26081383228302,
      "learning_rate": 5e-05,
      "loss": 1.7179,
      "step": 5117
    },
    {
      "epoch": 0.15051157781367797,
      "grad_norm": 0.2732841968536377,
      "learning_rate": 5e-05,
      "loss": 2.8475,
      "step": 5118
    },
    {
      "epoch": 0.15064620355411953,
      "grad_norm": 0.2815092206001282,
      "learning_rate": 5e-05,
      "loss": 1.9355,
      "step": 5119
    },
    {
      "epoch": 0.15078082929456113,
      "grad_norm": 0.2625463604927063,
      "learning_rate": 5e-05,
      "loss": 1.6728,
      "step": 5120
    },
    {
      "epoch": 0.1509154550350027,
      "grad_norm": 0.260286808013916,
      "learning_rate": 5e-05,
      "loss": 1.8205,
      "step": 5121
    },
    {
      "epoch": 0.15105008077544427,
      "grad_norm": 0.26540422439575195,
      "learning_rate": 5e-05,
      "loss": 2.1174,
      "step": 5122
    },
    {
      "epoch": 0.15118470651588584,
      "grad_norm": 0.26944631338119507,
      "learning_rate": 5e-05,
      "loss": 1.9272,
      "step": 5123
    },
    {
      "epoch": 0.1513193322563274,
      "grad_norm": 0.3276677131652832,
      "learning_rate": 5e-05,
      "loss": 2.632,
      "step": 5124
    },
    {
      "epoch": 0.15145395799676897,
      "grad_norm": 0.25581178069114685,
      "learning_rate": 5e-05,
      "loss": 1.865,
      "step": 5125
    },
    {
      "epoch": 0.15158858373721054,
      "grad_norm": 0.26529350876808167,
      "learning_rate": 5e-05,
      "loss": 1.9955,
      "step": 5126
    },
    {
      "epoch": 0.15172320947765214,
      "grad_norm": 0.2704603970050812,
      "learning_rate": 5e-05,
      "loss": 1.8789,
      "step": 5127
    },
    {
      "epoch": 0.1518578352180937,
      "grad_norm": 0.2535870373249054,
      "learning_rate": 5e-05,
      "loss": 1.9776,
      "step": 5128
    },
    {
      "epoch": 0.15199246095853527,
      "grad_norm": 0.24991734325885773,
      "learning_rate": 5e-05,
      "loss": 1.9021,
      "step": 5129
    },
    {
      "epoch": 0.15212708669897684,
      "grad_norm": 0.25912946462631226,
      "learning_rate": 5e-05,
      "loss": 1.8795,
      "step": 5130
    },
    {
      "epoch": 0.1522617124394184,
      "grad_norm": 0.3223114311695099,
      "learning_rate": 5e-05,
      "loss": 2.1492,
      "step": 5131
    },
    {
      "epoch": 0.15239633817985998,
      "grad_norm": 0.259428471326828,
      "learning_rate": 5e-05,
      "loss": 1.873,
      "step": 5132
    },
    {
      "epoch": 0.15253096392030155,
      "grad_norm": 0.2711125910282135,
      "learning_rate": 5e-05,
      "loss": 1.9084,
      "step": 5133
    },
    {
      "epoch": 0.15266558966074315,
      "grad_norm": 0.27009883522987366,
      "learning_rate": 5e-05,
      "loss": 2.587,
      "step": 5134
    },
    {
      "epoch": 0.1528002154011847,
      "grad_norm": 0.376863569021225,
      "learning_rate": 5e-05,
      "loss": 3.1447,
      "step": 5135
    },
    {
      "epoch": 0.15293484114162628,
      "grad_norm": 0.2676447331905365,
      "learning_rate": 5e-05,
      "loss": 1.6761,
      "step": 5136
    },
    {
      "epoch": 0.15306946688206785,
      "grad_norm": 0.30872103571891785,
      "learning_rate": 5e-05,
      "loss": 2.0482,
      "step": 5137
    },
    {
      "epoch": 0.15320409262250942,
      "grad_norm": 0.2660329043865204,
      "learning_rate": 5e-05,
      "loss": 2.1739,
      "step": 5138
    },
    {
      "epoch": 0.153338718362951,
      "grad_norm": 0.25090116262435913,
      "learning_rate": 5e-05,
      "loss": 1.6204,
      "step": 5139
    },
    {
      "epoch": 0.15347334410339256,
      "grad_norm": 0.2726646065711975,
      "learning_rate": 5e-05,
      "loss": 2.0114,
      "step": 5140
    },
    {
      "epoch": 0.15360796984383415,
      "grad_norm": 0.240047886967659,
      "learning_rate": 5e-05,
      "loss": 1.5937,
      "step": 5141
    },
    {
      "epoch": 0.15374259558427572,
      "grad_norm": 0.2572055160999298,
      "learning_rate": 5e-05,
      "loss": 1.856,
      "step": 5142
    },
    {
      "epoch": 0.1538772213247173,
      "grad_norm": 0.2478998750448227,
      "learning_rate": 5e-05,
      "loss": 1.7805,
      "step": 5143
    },
    {
      "epoch": 0.15401184706515886,
      "grad_norm": 0.2750518023967743,
      "learning_rate": 5e-05,
      "loss": 1.7711,
      "step": 5144
    },
    {
      "epoch": 0.15414647280560043,
      "grad_norm": 0.2718909680843353,
      "learning_rate": 5e-05,
      "loss": 1.766,
      "step": 5145
    },
    {
      "epoch": 0.154281098546042,
      "grad_norm": 0.28601256012916565,
      "learning_rate": 5e-05,
      "loss": 2.5522,
      "step": 5146
    },
    {
      "epoch": 0.15441572428648356,
      "grad_norm": 0.4108392894268036,
      "learning_rate": 5e-05,
      "loss": 3.4973,
      "step": 5147
    },
    {
      "epoch": 0.15455035002692516,
      "grad_norm": 0.2807595431804657,
      "learning_rate": 5e-05,
      "loss": 1.8822,
      "step": 5148
    },
    {
      "epoch": 0.15468497576736673,
      "grad_norm": 0.2998053729534149,
      "learning_rate": 5e-05,
      "loss": 2.104,
      "step": 5149
    },
    {
      "epoch": 0.1548196015078083,
      "grad_norm": 0.2682865858078003,
      "learning_rate": 5e-05,
      "loss": 1.7697,
      "step": 5150
    },
    {
      "epoch": 0.15495422724824987,
      "grad_norm": 0.3000871539115906,
      "learning_rate": 5e-05,
      "loss": 1.9959,
      "step": 5151
    },
    {
      "epoch": 0.15508885298869143,
      "grad_norm": 0.26867401599884033,
      "learning_rate": 5e-05,
      "loss": 1.8423,
      "step": 5152
    },
    {
      "epoch": 0.155223478729133,
      "grad_norm": 0.29781678318977356,
      "learning_rate": 5e-05,
      "loss": 3.0086,
      "step": 5153
    },
    {
      "epoch": 0.15535810446957457,
      "grad_norm": 0.4942503571510315,
      "learning_rate": 5e-05,
      "loss": 3.0226,
      "step": 5154
    },
    {
      "epoch": 0.15549273021001617,
      "grad_norm": 0.29940065741539,
      "learning_rate": 5e-05,
      "loss": 2.2382,
      "step": 5155
    },
    {
      "epoch": 0.15562735595045774,
      "grad_norm": 0.29384076595306396,
      "learning_rate": 5e-05,
      "loss": 1.6594,
      "step": 5156
    },
    {
      "epoch": 0.1557619816908993,
      "grad_norm": 0.26984649896621704,
      "learning_rate": 5e-05,
      "loss": 1.8346,
      "step": 5157
    },
    {
      "epoch": 0.15589660743134087,
      "grad_norm": 0.27177679538726807,
      "learning_rate": 5e-05,
      "loss": 2.0869,
      "step": 5158
    },
    {
      "epoch": 0.15603123317178244,
      "grad_norm": 0.3430059552192688,
      "learning_rate": 5e-05,
      "loss": 3.1895,
      "step": 5159
    },
    {
      "epoch": 0.156165858912224,
      "grad_norm": 0.24498863518238068,
      "learning_rate": 5e-05,
      "loss": 1.9586,
      "step": 5160
    },
    {
      "epoch": 0.15630048465266558,
      "grad_norm": 0.28573814034461975,
      "learning_rate": 5e-05,
      "loss": 1.5241,
      "step": 5161
    },
    {
      "epoch": 0.15643511039310717,
      "grad_norm": 0.28760242462158203,
      "learning_rate": 5e-05,
      "loss": 1.8623,
      "step": 5162
    },
    {
      "epoch": 0.15656973613354874,
      "grad_norm": 0.27133244276046753,
      "learning_rate": 5e-05,
      "loss": 2.0639,
      "step": 5163
    },
    {
      "epoch": 0.1567043618739903,
      "grad_norm": 0.2900269031524658,
      "learning_rate": 5e-05,
      "loss": 1.9913,
      "step": 5164
    },
    {
      "epoch": 0.15683898761443188,
      "grad_norm": 0.24919362366199493,
      "learning_rate": 5e-05,
      "loss": 1.6463,
      "step": 5165
    },
    {
      "epoch": 0.15697361335487345,
      "grad_norm": 0.33327266573905945,
      "learning_rate": 5e-05,
      "loss": 2.2431,
      "step": 5166
    },
    {
      "epoch": 0.15710823909531502,
      "grad_norm": 0.32228103280067444,
      "learning_rate": 5e-05,
      "loss": 2.532,
      "step": 5167
    },
    {
      "epoch": 0.15724286483575659,
      "grad_norm": 0.2680326998233795,
      "learning_rate": 5e-05,
      "loss": 1.6521,
      "step": 5168
    },
    {
      "epoch": 0.15737749057619818,
      "grad_norm": 0.4885561764240265,
      "learning_rate": 5e-05,
      "loss": 3.0478,
      "step": 5169
    },
    {
      "epoch": 0.15751211631663975,
      "grad_norm": 0.27804896235466003,
      "learning_rate": 5e-05,
      "loss": 2.0999,
      "step": 5170
    },
    {
      "epoch": 0.15764674205708132,
      "grad_norm": 0.25575295090675354,
      "learning_rate": 5e-05,
      "loss": 1.8598,
      "step": 5171
    },
    {
      "epoch": 0.1577813677975229,
      "grad_norm": 0.2780380845069885,
      "learning_rate": 5e-05,
      "loss": 2.0024,
      "step": 5172
    },
    {
      "epoch": 0.15791599353796446,
      "grad_norm": 0.2649257779121399,
      "learning_rate": 5e-05,
      "loss": 1.7195,
      "step": 5173
    },
    {
      "epoch": 0.15805061927840602,
      "grad_norm": 0.3035992383956909,
      "learning_rate": 5e-05,
      "loss": 2.4178,
      "step": 5174
    },
    {
      "epoch": 0.1581852450188476,
      "grad_norm": 0.28873196244239807,
      "learning_rate": 5e-05,
      "loss": 1.8524,
      "step": 5175
    },
    {
      "epoch": 0.1583198707592892,
      "grad_norm": 0.26331380009651184,
      "learning_rate": 5e-05,
      "loss": 1.4162,
      "step": 5176
    },
    {
      "epoch": 0.15845449649973076,
      "grad_norm": 0.26166531443595886,
      "learning_rate": 5e-05,
      "loss": 1.7255,
      "step": 5177
    },
    {
      "epoch": 0.15858912224017233,
      "grad_norm": 0.25495150685310364,
      "learning_rate": 5e-05,
      "loss": 1.8462,
      "step": 5178
    },
    {
      "epoch": 0.1587237479806139,
      "grad_norm": 0.24556764960289001,
      "learning_rate": 5e-05,
      "loss": 1.8487,
      "step": 5179
    },
    {
      "epoch": 0.15885837372105546,
      "grad_norm": 0.29150649905204773,
      "learning_rate": 5e-05,
      "loss": 1.975,
      "step": 5180
    },
    {
      "epoch": 0.15899299946149703,
      "grad_norm": 0.25087425112724304,
      "learning_rate": 5e-05,
      "loss": 1.785,
      "step": 5181
    },
    {
      "epoch": 0.1591276252019386,
      "grad_norm": 0.24217326939105988,
      "learning_rate": 5e-05,
      "loss": 1.6219,
      "step": 5182
    },
    {
      "epoch": 0.1592622509423802,
      "grad_norm": 0.2574050724506378,
      "learning_rate": 5e-05,
      "loss": 1.7927,
      "step": 5183
    },
    {
      "epoch": 0.15939687668282176,
      "grad_norm": 0.44781622290611267,
      "learning_rate": 5e-05,
      "loss": 3.5431,
      "step": 5184
    },
    {
      "epoch": 0.15953150242326333,
      "grad_norm": 0.26568618416786194,
      "learning_rate": 5e-05,
      "loss": 2.0179,
      "step": 5185
    },
    {
      "epoch": 0.1596661281637049,
      "grad_norm": 0.2499876320362091,
      "learning_rate": 5e-05,
      "loss": 1.8696,
      "step": 5186
    },
    {
      "epoch": 0.15980075390414647,
      "grad_norm": 0.3271522521972656,
      "learning_rate": 5e-05,
      "loss": 2.5061,
      "step": 5187
    },
    {
      "epoch": 0.15993537964458804,
      "grad_norm": 0.25825631618499756,
      "learning_rate": 5e-05,
      "loss": 1.6934,
      "step": 5188
    },
    {
      "epoch": 0.1600700053850296,
      "grad_norm": 0.2562744617462158,
      "learning_rate": 5e-05,
      "loss": 1.6265,
      "step": 5189
    },
    {
      "epoch": 0.1602046311254712,
      "grad_norm": 0.26087450981140137,
      "learning_rate": 5e-05,
      "loss": 1.5414,
      "step": 5190
    },
    {
      "epoch": 0.16033925686591277,
      "grad_norm": 0.26159560680389404,
      "learning_rate": 5e-05,
      "loss": 1.7032,
      "step": 5191
    },
    {
      "epoch": 0.16047388260635434,
      "grad_norm": 0.2723032236099243,
      "learning_rate": 5e-05,
      "loss": 1.8013,
      "step": 5192
    },
    {
      "epoch": 0.1606085083467959,
      "grad_norm": 0.5673015713691711,
      "learning_rate": 5e-05,
      "loss": 4.1251,
      "step": 5193
    },
    {
      "epoch": 0.16074313408723748,
      "grad_norm": 0.27712491154670715,
      "learning_rate": 5e-05,
      "loss": 2.2364,
      "step": 5194
    },
    {
      "epoch": 0.16087775982767905,
      "grad_norm": 0.26766571402549744,
      "learning_rate": 5e-05,
      "loss": 1.7232,
      "step": 5195
    },
    {
      "epoch": 0.16101238556812061,
      "grad_norm": 0.2849045693874359,
      "learning_rate": 5e-05,
      "loss": 2.053,
      "step": 5196
    },
    {
      "epoch": 0.1611470113085622,
      "grad_norm": 0.32035571336746216,
      "learning_rate": 5e-05,
      "loss": 2.8012,
      "step": 5197
    },
    {
      "epoch": 0.16128163704900378,
      "grad_norm": 0.3005598187446594,
      "learning_rate": 5e-05,
      "loss": 2.0329,
      "step": 5198
    },
    {
      "epoch": 0.16141626278944535,
      "grad_norm": 0.33879345655441284,
      "learning_rate": 5e-05,
      "loss": 2.8635,
      "step": 5199
    },
    {
      "epoch": 0.16155088852988692,
      "grad_norm": 0.27351635694503784,
      "learning_rate": 5e-05,
      "loss": 1.6756,
      "step": 5200
    },
    {
      "epoch": 0.16168551427032848,
      "grad_norm": 0.29154911637306213,
      "learning_rate": 5e-05,
      "loss": 2.3328,
      "step": 5201
    },
    {
      "epoch": 0.16182014001077005,
      "grad_norm": 0.2600662410259247,
      "learning_rate": 5e-05,
      "loss": 1.7529,
      "step": 5202
    },
    {
      "epoch": 0.16195476575121162,
      "grad_norm": 0.27904483675956726,
      "learning_rate": 5e-05,
      "loss": 2.2627,
      "step": 5203
    },
    {
      "epoch": 0.16208939149165322,
      "grad_norm": 0.2703457772731781,
      "learning_rate": 5e-05,
      "loss": 1.7703,
      "step": 5204
    },
    {
      "epoch": 0.16222401723209479,
      "grad_norm": 0.30560413002967834,
      "learning_rate": 5e-05,
      "loss": 2.2015,
      "step": 5205
    },
    {
      "epoch": 0.16235864297253635,
      "grad_norm": 0.3548508286476135,
      "learning_rate": 5e-05,
      "loss": 2.4304,
      "step": 5206
    },
    {
      "epoch": 0.16249326871297792,
      "grad_norm": 0.2660216689109802,
      "learning_rate": 5e-05,
      "loss": 2.0768,
      "step": 5207
    },
    {
      "epoch": 0.1626278944534195,
      "grad_norm": 0.29341673851013184,
      "learning_rate": 5e-05,
      "loss": 2.386,
      "step": 5208
    },
    {
      "epoch": 0.16276252019386106,
      "grad_norm": 0.25855961441993713,
      "learning_rate": 5e-05,
      "loss": 1.6828,
      "step": 5209
    },
    {
      "epoch": 0.16289714593430263,
      "grad_norm": 0.2705542743206024,
      "learning_rate": 5e-05,
      "loss": 1.8155,
      "step": 5210
    },
    {
      "epoch": 0.16303177167474422,
      "grad_norm": 0.26205286383628845,
      "learning_rate": 5e-05,
      "loss": 1.7817,
      "step": 5211
    },
    {
      "epoch": 0.1631663974151858,
      "grad_norm": 0.4040050506591797,
      "learning_rate": 5e-05,
      "loss": 3.0147,
      "step": 5212
    },
    {
      "epoch": 0.16330102315562736,
      "grad_norm": 0.26910823583602905,
      "learning_rate": 5e-05,
      "loss": 1.8715,
      "step": 5213
    },
    {
      "epoch": 0.16343564889606893,
      "grad_norm": 0.29584744572639465,
      "learning_rate": 5e-05,
      "loss": 2.1525,
      "step": 5214
    },
    {
      "epoch": 0.1635702746365105,
      "grad_norm": 0.30271077156066895,
      "learning_rate": 5e-05,
      "loss": 1.9281,
      "step": 5215
    },
    {
      "epoch": 0.16370490037695207,
      "grad_norm": 0.32575568556785583,
      "learning_rate": 5e-05,
      "loss": 2.4161,
      "step": 5216
    },
    {
      "epoch": 0.16383952611739364,
      "grad_norm": 0.2688745856285095,
      "learning_rate": 5e-05,
      "loss": 1.924,
      "step": 5217
    },
    {
      "epoch": 0.16397415185783523,
      "grad_norm": 0.24606366455554962,
      "learning_rate": 5e-05,
      "loss": 1.7115,
      "step": 5218
    },
    {
      "epoch": 0.1641087775982768,
      "grad_norm": 0.25098690390586853,
      "learning_rate": 5e-05,
      "loss": 1.7747,
      "step": 5219
    },
    {
      "epoch": 0.16424340333871837,
      "grad_norm": 0.40676310658454895,
      "learning_rate": 5e-05,
      "loss": 3.2169,
      "step": 5220
    },
    {
      "epoch": 0.16437802907915994,
      "grad_norm": 0.26390784978866577,
      "learning_rate": 5e-05,
      "loss": 1.9564,
      "step": 5221
    },
    {
      "epoch": 0.1645126548196015,
      "grad_norm": 0.2817056179046631,
      "learning_rate": 5e-05,
      "loss": 1.905,
      "step": 5222
    },
    {
      "epoch": 0.16464728056004307,
      "grad_norm": 0.26230087876319885,
      "learning_rate": 5e-05,
      "loss": 1.952,
      "step": 5223
    },
    {
      "epoch": 0.16478190630048464,
      "grad_norm": 0.33283862471580505,
      "learning_rate": 5e-05,
      "loss": 2.1405,
      "step": 5224
    },
    {
      "epoch": 0.1649165320409262,
      "grad_norm": 0.2645412087440491,
      "learning_rate": 5e-05,
      "loss": 2.0083,
      "step": 5225
    },
    {
      "epoch": 0.1650511577813678,
      "grad_norm": 0.3896903097629547,
      "learning_rate": 5e-05,
      "loss": 2.2201,
      "step": 5226
    },
    {
      "epoch": 0.16518578352180938,
      "grad_norm": 0.26362860202789307,
      "learning_rate": 5e-05,
      "loss": 1.8688,
      "step": 5227
    },
    {
      "epoch": 0.16532040926225094,
      "grad_norm": 0.27234312891960144,
      "learning_rate": 5e-05,
      "loss": 2.0951,
      "step": 5228
    },
    {
      "epoch": 0.1654550350026925,
      "grad_norm": 0.2569430470466614,
      "learning_rate": 5e-05,
      "loss": 2.1278,
      "step": 5229
    },
    {
      "epoch": 0.16558966074313408,
      "grad_norm": 0.2484855353832245,
      "learning_rate": 5e-05,
      "loss": 1.8161,
      "step": 5230
    },
    {
      "epoch": 0.16572428648357565,
      "grad_norm": 0.25671708583831787,
      "learning_rate": 5e-05,
      "loss": 1.9697,
      "step": 5231
    },
    {
      "epoch": 0.16585891222401722,
      "grad_norm": 0.2835134267807007,
      "learning_rate": 5e-05,
      "loss": 2.051,
      "step": 5232
    },
    {
      "epoch": 0.16599353796445881,
      "grad_norm": 0.2802441418170929,
      "learning_rate": 5e-05,
      "loss": 1.9083,
      "step": 5233
    },
    {
      "epoch": 0.16612816370490038,
      "grad_norm": 0.30846500396728516,
      "learning_rate": 5e-05,
      "loss": 2.2643,
      "step": 5234
    },
    {
      "epoch": 0.16626278944534195,
      "grad_norm": 0.2708930969238281,
      "learning_rate": 5e-05,
      "loss": 1.9283,
      "step": 5235
    },
    {
      "epoch": 0.16639741518578352,
      "grad_norm": 0.4093007445335388,
      "learning_rate": 5e-05,
      "loss": 3.0535,
      "step": 5236
    },
    {
      "epoch": 0.1665320409262251,
      "grad_norm": 0.2625221312046051,
      "learning_rate": 5e-05,
      "loss": 2.2669,
      "step": 5237
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.26408854126930237,
      "learning_rate": 5e-05,
      "loss": 1.773,
      "step": 5238
    },
    {
      "epoch": 0.16680129240710823,
      "grad_norm": 0.2823416292667389,
      "learning_rate": 5e-05,
      "loss": 2.0611,
      "step": 5239
    },
    {
      "epoch": 0.16693591814754982,
      "grad_norm": 0.24086548388004303,
      "learning_rate": 5e-05,
      "loss": 1.675,
      "step": 5240
    },
    {
      "epoch": 0.1670705438879914,
      "grad_norm": 0.33109045028686523,
      "learning_rate": 5e-05,
      "loss": 2.5648,
      "step": 5241
    },
    {
      "epoch": 0.16720516962843296,
      "grad_norm": 0.27428382635116577,
      "learning_rate": 5e-05,
      "loss": 2.1837,
      "step": 5242
    },
    {
      "epoch": 0.16733979536887453,
      "grad_norm": 0.28504544496536255,
      "learning_rate": 5e-05,
      "loss": 2.1276,
      "step": 5243
    },
    {
      "epoch": 0.1674744211093161,
      "grad_norm": 0.2638695538043976,
      "learning_rate": 5e-05,
      "loss": 2.0978,
      "step": 5244
    },
    {
      "epoch": 0.16760904684975766,
      "grad_norm": 0.3172929883003235,
      "learning_rate": 5e-05,
      "loss": 3.2194,
      "step": 5245
    },
    {
      "epoch": 0.16774367259019923,
      "grad_norm": 0.25490131974220276,
      "learning_rate": 5e-05,
      "loss": 1.9338,
      "step": 5246
    },
    {
      "epoch": 0.16787829833064083,
      "grad_norm": 0.28181570768356323,
      "learning_rate": 5e-05,
      "loss": 1.8821,
      "step": 5247
    },
    {
      "epoch": 0.1680129240710824,
      "grad_norm": 0.3073576092720032,
      "learning_rate": 5e-05,
      "loss": 2.0894,
      "step": 5248
    },
    {
      "epoch": 0.16814754981152397,
      "grad_norm": 0.2824280858039856,
      "learning_rate": 5e-05,
      "loss": 2.1698,
      "step": 5249
    },
    {
      "epoch": 0.16828217555196553,
      "grad_norm": 0.2923818826675415,
      "learning_rate": 5e-05,
      "loss": 2.2814,
      "step": 5250
    },
    {
      "epoch": 0.1684168012924071,
      "grad_norm": 0.2613069415092468,
      "learning_rate": 5e-05,
      "loss": 2.0316,
      "step": 5251
    },
    {
      "epoch": 0.16855142703284867,
      "grad_norm": 0.30145755410194397,
      "learning_rate": 5e-05,
      "loss": 2.2795,
      "step": 5252
    },
    {
      "epoch": 0.16868605277329024,
      "grad_norm": 0.298300564289093,
      "learning_rate": 5e-05,
      "loss": 2.9885,
      "step": 5253
    },
    {
      "epoch": 0.16882067851373184,
      "grad_norm": 0.36963534355163574,
      "learning_rate": 5e-05,
      "loss": 2.0617,
      "step": 5254
    },
    {
      "epoch": 0.1689553042541734,
      "grad_norm": 0.33566194772720337,
      "learning_rate": 5e-05,
      "loss": 2.5269,
      "step": 5255
    },
    {
      "epoch": 0.16908992999461497,
      "grad_norm": 0.26557132601737976,
      "learning_rate": 5e-05,
      "loss": 1.5718,
      "step": 5256
    },
    {
      "epoch": 0.16922455573505654,
      "grad_norm": 0.27401232719421387,
      "learning_rate": 5e-05,
      "loss": 2.0997,
      "step": 5257
    },
    {
      "epoch": 0.1693591814754981,
      "grad_norm": 0.3023259937763214,
      "learning_rate": 5e-05,
      "loss": 2.1544,
      "step": 5258
    },
    {
      "epoch": 0.16949380721593968,
      "grad_norm": 0.24576283991336823,
      "learning_rate": 5e-05,
      "loss": 1.6927,
      "step": 5259
    },
    {
      "epoch": 0.16962843295638125,
      "grad_norm": 0.31982067227363586,
      "learning_rate": 5e-05,
      "loss": 2.6766,
      "step": 5260
    },
    {
      "epoch": 0.16976305869682284,
      "grad_norm": 0.26646947860717773,
      "learning_rate": 5e-05,
      "loss": 2.0469,
      "step": 5261
    },
    {
      "epoch": 0.1698976844372644,
      "grad_norm": 0.26178649067878723,
      "learning_rate": 5e-05,
      "loss": 1.8289,
      "step": 5262
    },
    {
      "epoch": 0.17003231017770598,
      "grad_norm": 0.25786292552948,
      "learning_rate": 5e-05,
      "loss": 1.8318,
      "step": 5263
    },
    {
      "epoch": 0.17016693591814755,
      "grad_norm": 0.28156065940856934,
      "learning_rate": 5e-05,
      "loss": 2.381,
      "step": 5264
    },
    {
      "epoch": 0.17030156165858912,
      "grad_norm": 0.48141419887542725,
      "learning_rate": 5e-05,
      "loss": 2.6787,
      "step": 5265
    },
    {
      "epoch": 0.1704361873990307,
      "grad_norm": 0.2874945402145386,
      "learning_rate": 5e-05,
      "loss": 2.2998,
      "step": 5266
    },
    {
      "epoch": 0.17057081313947225,
      "grad_norm": 0.319236159324646,
      "learning_rate": 5e-05,
      "loss": 2.4608,
      "step": 5267
    },
    {
      "epoch": 0.17070543887991385,
      "grad_norm": 0.33172139525413513,
      "learning_rate": 5e-05,
      "loss": 2.5129,
      "step": 5268
    },
    {
      "epoch": 0.17084006462035542,
      "grad_norm": 0.2547787129878998,
      "learning_rate": 5e-05,
      "loss": 1.6813,
      "step": 5269
    },
    {
      "epoch": 0.170974690360797,
      "grad_norm": 0.2864181697368622,
      "learning_rate": 5e-05,
      "loss": 2.4054,
      "step": 5270
    },
    {
      "epoch": 0.17110931610123856,
      "grad_norm": 0.27000749111175537,
      "learning_rate": 5e-05,
      "loss": 1.8492,
      "step": 5271
    },
    {
      "epoch": 0.17124394184168013,
      "grad_norm": 0.2676129937171936,
      "learning_rate": 5e-05,
      "loss": 1.9128,
      "step": 5272
    },
    {
      "epoch": 0.1713785675821217,
      "grad_norm": 0.2689473628997803,
      "learning_rate": 5e-05,
      "loss": 1.8726,
      "step": 5273
    },
    {
      "epoch": 0.17151319332256326,
      "grad_norm": 0.26445502042770386,
      "learning_rate": 5e-05,
      "loss": 1.7675,
      "step": 5274
    },
    {
      "epoch": 0.17164781906300486,
      "grad_norm": 0.268321692943573,
      "learning_rate": 5e-05,
      "loss": 2.0452,
      "step": 5275
    },
    {
      "epoch": 0.17178244480344643,
      "grad_norm": 0.26333382725715637,
      "learning_rate": 5e-05,
      "loss": 1.8733,
      "step": 5276
    },
    {
      "epoch": 0.171917070543888,
      "grad_norm": 0.24305444955825806,
      "learning_rate": 5e-05,
      "loss": 1.5878,
      "step": 5277
    },
    {
      "epoch": 0.17205169628432956,
      "grad_norm": 0.2622479200363159,
      "learning_rate": 5e-05,
      "loss": 1.9147,
      "step": 5278
    },
    {
      "epoch": 0.17218632202477113,
      "grad_norm": 0.29988884925842285,
      "learning_rate": 5e-05,
      "loss": 2.1347,
      "step": 5279
    },
    {
      "epoch": 0.1723209477652127,
      "grad_norm": 0.30150550603866577,
      "learning_rate": 5e-05,
      "loss": 2.1601,
      "step": 5280
    },
    {
      "epoch": 0.17245557350565427,
      "grad_norm": 0.25622835755348206,
      "learning_rate": 5e-05,
      "loss": 1.6478,
      "step": 5281
    },
    {
      "epoch": 0.17259019924609587,
      "grad_norm": 0.26580774784088135,
      "learning_rate": 5e-05,
      "loss": 2.0146,
      "step": 5282
    },
    {
      "epoch": 0.17272482498653743,
      "grad_norm": 0.29416558146476746,
      "learning_rate": 5e-05,
      "loss": 2.358,
      "step": 5283
    },
    {
      "epoch": 0.172859450726979,
      "grad_norm": 0.2366957813501358,
      "learning_rate": 5e-05,
      "loss": 1.8232,
      "step": 5284
    },
    {
      "epoch": 0.17299407646742057,
      "grad_norm": 0.4772056043148041,
      "learning_rate": 5e-05,
      "loss": 3.2443,
      "step": 5285
    },
    {
      "epoch": 0.17312870220786214,
      "grad_norm": 0.2673690617084503,
      "learning_rate": 5e-05,
      "loss": 1.8077,
      "step": 5286
    },
    {
      "epoch": 0.1732633279483037,
      "grad_norm": 0.26393911242485046,
      "learning_rate": 5e-05,
      "loss": 1.8174,
      "step": 5287
    },
    {
      "epoch": 0.17339795368874528,
      "grad_norm": 0.2787272036075592,
      "learning_rate": 5e-05,
      "loss": 2.433,
      "step": 5288
    },
    {
      "epoch": 0.17353257942918687,
      "grad_norm": 0.30065271258354187,
      "learning_rate": 5e-05,
      "loss": 1.896,
      "step": 5289
    },
    {
      "epoch": 0.17366720516962844,
      "grad_norm": 0.2809353470802307,
      "learning_rate": 5e-05,
      "loss": 2.1932,
      "step": 5290
    },
    {
      "epoch": 0.17380183091007,
      "grad_norm": 0.2659929096698761,
      "learning_rate": 5e-05,
      "loss": 2.0415,
      "step": 5291
    },
    {
      "epoch": 0.17393645665051158,
      "grad_norm": 0.26785746216773987,
      "learning_rate": 5e-05,
      "loss": 2.1878,
      "step": 5292
    },
    {
      "epoch": 0.17407108239095315,
      "grad_norm": 0.2724263668060303,
      "learning_rate": 5e-05,
      "loss": 2.0549,
      "step": 5293
    },
    {
      "epoch": 0.17420570813139472,
      "grad_norm": 0.3477190434932709,
      "learning_rate": 5e-05,
      "loss": 2.7584,
      "step": 5294
    },
    {
      "epoch": 0.17434033387183628,
      "grad_norm": 0.2780951261520386,
      "learning_rate": 5e-05,
      "loss": 1.9608,
      "step": 5295
    },
    {
      "epoch": 0.17447495961227788,
      "grad_norm": 0.2748590111732483,
      "learning_rate": 5e-05,
      "loss": 1.9094,
      "step": 5296
    },
    {
      "epoch": 0.17460958535271945,
      "grad_norm": 0.2508687376976013,
      "learning_rate": 5e-05,
      "loss": 1.7898,
      "step": 5297
    },
    {
      "epoch": 0.17474421109316102,
      "grad_norm": 0.24825690686702728,
      "learning_rate": 5e-05,
      "loss": 1.8624,
      "step": 5298
    },
    {
      "epoch": 0.17487883683360259,
      "grad_norm": 0.2658630907535553,
      "learning_rate": 5e-05,
      "loss": 1.9599,
      "step": 5299
    },
    {
      "epoch": 0.17501346257404415,
      "grad_norm": 0.25004592537879944,
      "learning_rate": 5e-05,
      "loss": 1.6336,
      "step": 5300
    },
    {
      "epoch": 0.17514808831448572,
      "grad_norm": 0.29952991008758545,
      "learning_rate": 5e-05,
      "loss": 2.782,
      "step": 5301
    },
    {
      "epoch": 0.1752827140549273,
      "grad_norm": 0.26522403955459595,
      "learning_rate": 5e-05,
      "loss": 1.7933,
      "step": 5302
    },
    {
      "epoch": 0.1754173397953689,
      "grad_norm": 0.270156592130661,
      "learning_rate": 5e-05,
      "loss": 1.774,
      "step": 5303
    },
    {
      "epoch": 0.17555196553581046,
      "grad_norm": 0.2945598065853119,
      "learning_rate": 5e-05,
      "loss": 2.7717,
      "step": 5304
    },
    {
      "epoch": 0.17568659127625202,
      "grad_norm": 0.32242026925086975,
      "learning_rate": 5e-05,
      "loss": 2.1828,
      "step": 5305
    },
    {
      "epoch": 0.1758212170166936,
      "grad_norm": 0.2722668945789337,
      "learning_rate": 5e-05,
      "loss": 2.9412,
      "step": 5306
    },
    {
      "epoch": 0.17595584275713516,
      "grad_norm": 0.2683752775192261,
      "learning_rate": 5e-05,
      "loss": 1.7342,
      "step": 5307
    },
    {
      "epoch": 0.17609046849757673,
      "grad_norm": 0.2525825500488281,
      "learning_rate": 5e-05,
      "loss": 1.8648,
      "step": 5308
    },
    {
      "epoch": 0.1762250942380183,
      "grad_norm": 0.29628199338912964,
      "learning_rate": 5e-05,
      "loss": 2.4222,
      "step": 5309
    },
    {
      "epoch": 0.1763597199784599,
      "grad_norm": 0.3374860882759094,
      "learning_rate": 5e-05,
      "loss": 2.3027,
      "step": 5310
    },
    {
      "epoch": 0.17649434571890146,
      "grad_norm": 0.31769120693206787,
      "learning_rate": 5e-05,
      "loss": 2.5068,
      "step": 5311
    },
    {
      "epoch": 0.17662897145934303,
      "grad_norm": 0.26938191056251526,
      "learning_rate": 5e-05,
      "loss": 1.8628,
      "step": 5312
    },
    {
      "epoch": 0.1767635971997846,
      "grad_norm": 0.27186548709869385,
      "learning_rate": 5e-05,
      "loss": 2.0271,
      "step": 5313
    },
    {
      "epoch": 0.17689822294022617,
      "grad_norm": 0.2800634205341339,
      "learning_rate": 5e-05,
      "loss": 1.7431,
      "step": 5314
    },
    {
      "epoch": 0.17703284868066774,
      "grad_norm": 0.31599652767181396,
      "learning_rate": 5e-05,
      "loss": 2.6767,
      "step": 5315
    },
    {
      "epoch": 0.1771674744211093,
      "grad_norm": 0.2647636830806732,
      "learning_rate": 5e-05,
      "loss": 2.0245,
      "step": 5316
    },
    {
      "epoch": 0.1773021001615509,
      "grad_norm": 0.2537996768951416,
      "learning_rate": 5e-05,
      "loss": 1.7817,
      "step": 5317
    },
    {
      "epoch": 0.17743672590199247,
      "grad_norm": 0.29116541147232056,
      "learning_rate": 5e-05,
      "loss": 2.0647,
      "step": 5318
    },
    {
      "epoch": 0.17757135164243404,
      "grad_norm": 0.28532007336616516,
      "learning_rate": 5e-05,
      "loss": 1.9891,
      "step": 5319
    },
    {
      "epoch": 0.1777059773828756,
      "grad_norm": 0.2889825999736786,
      "learning_rate": 5e-05,
      "loss": 1.8094,
      "step": 5320
    },
    {
      "epoch": 0.17784060312331718,
      "grad_norm": 0.2900365889072418,
      "learning_rate": 5e-05,
      "loss": 2.6749,
      "step": 5321
    },
    {
      "epoch": 0.17797522886375874,
      "grad_norm": 0.2646932303905487,
      "learning_rate": 5e-05,
      "loss": 2.5107,
      "step": 5322
    },
    {
      "epoch": 0.1781098546042003,
      "grad_norm": 0.25795266032218933,
      "learning_rate": 5e-05,
      "loss": 1.9223,
      "step": 5323
    },
    {
      "epoch": 0.1782444803446419,
      "grad_norm": 0.24615201354026794,
      "learning_rate": 5e-05,
      "loss": 1.6384,
      "step": 5324
    },
    {
      "epoch": 0.17837910608508348,
      "grad_norm": 0.26547858119010925,
      "learning_rate": 5e-05,
      "loss": 2.1031,
      "step": 5325
    },
    {
      "epoch": 0.17851373182552505,
      "grad_norm": 0.2896093726158142,
      "learning_rate": 5e-05,
      "loss": 2.9527,
      "step": 5326
    },
    {
      "epoch": 0.17864835756596661,
      "grad_norm": 0.2715454697608948,
      "learning_rate": 5e-05,
      "loss": 2.0323,
      "step": 5327
    },
    {
      "epoch": 0.17878298330640818,
      "grad_norm": 0.253461092710495,
      "learning_rate": 5e-05,
      "loss": 1.9086,
      "step": 5328
    },
    {
      "epoch": 0.17891760904684975,
      "grad_norm": 0.24299293756484985,
      "learning_rate": 5e-05,
      "loss": 1.5414,
      "step": 5329
    },
    {
      "epoch": 0.17905223478729132,
      "grad_norm": 0.2642447352409363,
      "learning_rate": 5e-05,
      "loss": 2.0237,
      "step": 5330
    },
    {
      "epoch": 0.17918686052773292,
      "grad_norm": 0.4120107591152191,
      "learning_rate": 5e-05,
      "loss": 3.0159,
      "step": 5331
    },
    {
      "epoch": 0.17932148626817448,
      "grad_norm": 0.24895015358924866,
      "learning_rate": 5e-05,
      "loss": 1.7688,
      "step": 5332
    },
    {
      "epoch": 0.17945611200861605,
      "grad_norm": 0.30561113357543945,
      "learning_rate": 5e-05,
      "loss": 2.3628,
      "step": 5333
    },
    {
      "epoch": 0.17959073774905762,
      "grad_norm": 0.2571187913417816,
      "learning_rate": 5e-05,
      "loss": 1.7663,
      "step": 5334
    },
    {
      "epoch": 0.1797253634894992,
      "grad_norm": 0.27151256799697876,
      "learning_rate": 5e-05,
      "loss": 1.9105,
      "step": 5335
    },
    {
      "epoch": 0.17985998922994076,
      "grad_norm": 0.25677528977394104,
      "learning_rate": 5e-05,
      "loss": 1.9126,
      "step": 5336
    },
    {
      "epoch": 0.17999461497038233,
      "grad_norm": 0.2573798894882202,
      "learning_rate": 5e-05,
      "loss": 2.0423,
      "step": 5337
    },
    {
      "epoch": 0.1801292407108239,
      "grad_norm": 0.25136688351631165,
      "learning_rate": 5e-05,
      "loss": 1.7808,
      "step": 5338
    },
    {
      "epoch": 0.1802638664512655,
      "grad_norm": 0.27240505814552307,
      "learning_rate": 5e-05,
      "loss": 1.9053,
      "step": 5339
    },
    {
      "epoch": 0.18039849219170706,
      "grad_norm": 0.252479612827301,
      "learning_rate": 5e-05,
      "loss": 1.8706,
      "step": 5340
    },
    {
      "epoch": 0.18053311793214863,
      "grad_norm": 0.26073214411735535,
      "learning_rate": 5e-05,
      "loss": 2.0228,
      "step": 5341
    },
    {
      "epoch": 0.1806677436725902,
      "grad_norm": 0.31021082401275635,
      "learning_rate": 5e-05,
      "loss": 2.2087,
      "step": 5342
    },
    {
      "epoch": 0.18080236941303177,
      "grad_norm": 0.28181201219558716,
      "learning_rate": 5e-05,
      "loss": 1.9337,
      "step": 5343
    },
    {
      "epoch": 0.18093699515347333,
      "grad_norm": 0.30136922001838684,
      "learning_rate": 5e-05,
      "loss": 2.1768,
      "step": 5344
    },
    {
      "epoch": 0.1810716208939149,
      "grad_norm": 0.3564024567604065,
      "learning_rate": 5e-05,
      "loss": 3.1866,
      "step": 5345
    },
    {
      "epoch": 0.1812062466343565,
      "grad_norm": 0.3686462342739105,
      "learning_rate": 5e-05,
      "loss": 3.0262,
      "step": 5346
    },
    {
      "epoch": 0.18134087237479807,
      "grad_norm": 0.3155590891838074,
      "learning_rate": 5e-05,
      "loss": 2.8729,
      "step": 5347
    },
    {
      "epoch": 0.18147549811523964,
      "grad_norm": 0.3631698489189148,
      "learning_rate": 5e-05,
      "loss": 2.3036,
      "step": 5348
    },
    {
      "epoch": 0.1816101238556812,
      "grad_norm": 0.28784751892089844,
      "learning_rate": 5e-05,
      "loss": 1.9059,
      "step": 5349
    },
    {
      "epoch": 0.18174474959612277,
      "grad_norm": 0.287538081407547,
      "learning_rate": 5e-05,
      "loss": 1.9516,
      "step": 5350
    },
    {
      "epoch": 0.18187937533656434,
      "grad_norm": 0.28113478422164917,
      "learning_rate": 5e-05,
      "loss": 2.0333,
      "step": 5351
    },
    {
      "epoch": 0.1820140010770059,
      "grad_norm": 0.26608338952064514,
      "learning_rate": 5e-05,
      "loss": 2.3349,
      "step": 5352
    },
    {
      "epoch": 0.1821486268174475,
      "grad_norm": 0.26786065101623535,
      "learning_rate": 5e-05,
      "loss": 1.9758,
      "step": 5353
    },
    {
      "epoch": 0.18228325255788907,
      "grad_norm": 0.30782392621040344,
      "learning_rate": 5e-05,
      "loss": 2.3256,
      "step": 5354
    },
    {
      "epoch": 0.18241787829833064,
      "grad_norm": 0.31978845596313477,
      "learning_rate": 5e-05,
      "loss": 2.864,
      "step": 5355
    },
    {
      "epoch": 0.1825525040387722,
      "grad_norm": 0.2826388478279114,
      "learning_rate": 5e-05,
      "loss": 1.6012,
      "step": 5356
    },
    {
      "epoch": 0.18268712977921378,
      "grad_norm": 0.31700730323791504,
      "learning_rate": 5e-05,
      "loss": 2.1887,
      "step": 5357
    },
    {
      "epoch": 0.18282175551965535,
      "grad_norm": 0.2837032079696655,
      "learning_rate": 5e-05,
      "loss": 1.9195,
      "step": 5358
    },
    {
      "epoch": 0.18295638126009692,
      "grad_norm": 0.26360487937927246,
      "learning_rate": 5e-05,
      "loss": 2.041,
      "step": 5359
    },
    {
      "epoch": 0.1830910070005385,
      "grad_norm": 0.29875198006629944,
      "learning_rate": 5e-05,
      "loss": 1.8182,
      "step": 5360
    },
    {
      "epoch": 0.18322563274098008,
      "grad_norm": 0.26619675755500793,
      "learning_rate": 5e-05,
      "loss": 1.7605,
      "step": 5361
    },
    {
      "epoch": 0.18336025848142165,
      "grad_norm": 0.2666599154472351,
      "learning_rate": 5e-05,
      "loss": 1.6705,
      "step": 5362
    },
    {
      "epoch": 0.18349488422186322,
      "grad_norm": 0.2830498218536377,
      "learning_rate": 5e-05,
      "loss": 2.2689,
      "step": 5363
    },
    {
      "epoch": 0.1836295099623048,
      "grad_norm": 0.330041766166687,
      "learning_rate": 5e-05,
      "loss": 2.5085,
      "step": 5364
    },
    {
      "epoch": 0.18376413570274636,
      "grad_norm": 0.2712543308734894,
      "learning_rate": 5e-05,
      "loss": 2.179,
      "step": 5365
    },
    {
      "epoch": 0.18389876144318792,
      "grad_norm": 0.2739572823047638,
      "learning_rate": 5e-05,
      "loss": 1.938,
      "step": 5366
    },
    {
      "epoch": 0.18403338718362952,
      "grad_norm": 0.2912009656429291,
      "learning_rate": 5e-05,
      "loss": 2.4019,
      "step": 5367
    },
    {
      "epoch": 0.1841680129240711,
      "grad_norm": 0.2816316485404968,
      "learning_rate": 5e-05,
      "loss": 2.232,
      "step": 5368
    },
    {
      "epoch": 0.18430263866451266,
      "grad_norm": 0.2536552846431732,
      "learning_rate": 5e-05,
      "loss": 1.7075,
      "step": 5369
    },
    {
      "epoch": 0.18443726440495423,
      "grad_norm": 0.26317936182022095,
      "learning_rate": 5e-05,
      "loss": 2.0524,
      "step": 5370
    },
    {
      "epoch": 0.1845718901453958,
      "grad_norm": 0.25552424788475037,
      "learning_rate": 5e-05,
      "loss": 1.8404,
      "step": 5371
    },
    {
      "epoch": 0.18470651588583736,
      "grad_norm": 0.28711700439453125,
      "learning_rate": 5e-05,
      "loss": 2.0541,
      "step": 5372
    },
    {
      "epoch": 0.18484114162627893,
      "grad_norm": 0.2643115520477295,
      "learning_rate": 5e-05,
      "loss": 1.8765,
      "step": 5373
    },
    {
      "epoch": 0.18497576736672053,
      "grad_norm": 0.2592698335647583,
      "learning_rate": 5e-05,
      "loss": 1.8426,
      "step": 5374
    },
    {
      "epoch": 0.1851103931071621,
      "grad_norm": 0.29525259137153625,
      "learning_rate": 5e-05,
      "loss": 2.047,
      "step": 5375
    },
    {
      "epoch": 0.18524501884760367,
      "grad_norm": 0.25551366806030273,
      "learning_rate": 5e-05,
      "loss": 1.851,
      "step": 5376
    },
    {
      "epoch": 0.18537964458804523,
      "grad_norm": 0.30332452058792114,
      "learning_rate": 5e-05,
      "loss": 2.5485,
      "step": 5377
    },
    {
      "epoch": 0.1855142703284868,
      "grad_norm": 0.2765926718711853,
      "learning_rate": 5e-05,
      "loss": 1.9616,
      "step": 5378
    },
    {
      "epoch": 0.18564889606892837,
      "grad_norm": 0.308841347694397,
      "learning_rate": 5e-05,
      "loss": 2.5379,
      "step": 5379
    },
    {
      "epoch": 0.18578352180936994,
      "grad_norm": 0.27865228056907654,
      "learning_rate": 5e-05,
      "loss": 2.1302,
      "step": 5380
    },
    {
      "epoch": 0.18591814754981154,
      "grad_norm": 0.4592554569244385,
      "learning_rate": 5e-05,
      "loss": 2.1058,
      "step": 5381
    },
    {
      "epoch": 0.1860527732902531,
      "grad_norm": 0.27234700322151184,
      "learning_rate": 5e-05,
      "loss": 1.9845,
      "step": 5382
    },
    {
      "epoch": 0.18618739903069467,
      "grad_norm": 0.2678138017654419,
      "learning_rate": 5e-05,
      "loss": 1.8222,
      "step": 5383
    },
    {
      "epoch": 0.18632202477113624,
      "grad_norm": 0.2900834083557129,
      "learning_rate": 5e-05,
      "loss": 2.1884,
      "step": 5384
    },
    {
      "epoch": 0.1864566505115778,
      "grad_norm": 0.28126251697540283,
      "learning_rate": 5e-05,
      "loss": 2.2337,
      "step": 5385
    },
    {
      "epoch": 0.18659127625201938,
      "grad_norm": 0.2760772407054901,
      "learning_rate": 5e-05,
      "loss": 2.2396,
      "step": 5386
    },
    {
      "epoch": 0.18672590199246095,
      "grad_norm": 0.2587021589279175,
      "learning_rate": 5e-05,
      "loss": 1.9466,
      "step": 5387
    },
    {
      "epoch": 0.18686052773290254,
      "grad_norm": 0.27044251561164856,
      "learning_rate": 5e-05,
      "loss": 2.0387,
      "step": 5388
    },
    {
      "epoch": 0.1869951534733441,
      "grad_norm": 0.25964123010635376,
      "learning_rate": 5e-05,
      "loss": 2.1142,
      "step": 5389
    },
    {
      "epoch": 0.18712977921378568,
      "grad_norm": 0.3064000606536865,
      "learning_rate": 5e-05,
      "loss": 2.4262,
      "step": 5390
    },
    {
      "epoch": 0.18726440495422725,
      "grad_norm": 0.2652486264705658,
      "learning_rate": 5e-05,
      "loss": 1.9625,
      "step": 5391
    },
    {
      "epoch": 0.18739903069466882,
      "grad_norm": 0.2567133903503418,
      "learning_rate": 5e-05,
      "loss": 1.8305,
      "step": 5392
    },
    {
      "epoch": 0.18753365643511039,
      "grad_norm": 0.29806143045425415,
      "learning_rate": 5e-05,
      "loss": 2.4145,
      "step": 5393
    },
    {
      "epoch": 0.18766828217555195,
      "grad_norm": 0.2572915852069855,
      "learning_rate": 5e-05,
      "loss": 1.8785,
      "step": 5394
    },
    {
      "epoch": 0.18780290791599355,
      "grad_norm": 0.2880968451499939,
      "learning_rate": 5e-05,
      "loss": 2.2237,
      "step": 5395
    },
    {
      "epoch": 0.18793753365643512,
      "grad_norm": 0.2565944194793701,
      "learning_rate": 5e-05,
      "loss": 1.6861,
      "step": 5396
    },
    {
      "epoch": 0.1880721593968767,
      "grad_norm": 0.2584221661090851,
      "learning_rate": 5e-05,
      "loss": 1.6654,
      "step": 5397
    },
    {
      "epoch": 0.18820678513731826,
      "grad_norm": 0.2982849180698395,
      "learning_rate": 5e-05,
      "loss": 2.0062,
      "step": 5398
    },
    {
      "epoch": 0.18834141087775982,
      "grad_norm": 0.25201621651649475,
      "learning_rate": 5e-05,
      "loss": 1.8935,
      "step": 5399
    },
    {
      "epoch": 0.1884760366182014,
      "grad_norm": 0.24912554025650024,
      "learning_rate": 5e-05,
      "loss": 1.6392,
      "step": 5400
    },
    {
      "epoch": 0.18861066235864296,
      "grad_norm": 0.251813679933548,
      "learning_rate": 5e-05,
      "loss": 1.8515,
      "step": 5401
    },
    {
      "epoch": 0.18874528809908456,
      "grad_norm": 0.27485159039497375,
      "learning_rate": 5e-05,
      "loss": 2.0535,
      "step": 5402
    },
    {
      "epoch": 0.18887991383952613,
      "grad_norm": 0.28483736515045166,
      "learning_rate": 5e-05,
      "loss": 2.0104,
      "step": 5403
    },
    {
      "epoch": 0.1890145395799677,
      "grad_norm": 0.2832701504230499,
      "learning_rate": 5e-05,
      "loss": 2.51,
      "step": 5404
    },
    {
      "epoch": 0.18914916532040926,
      "grad_norm": 0.24652491509914398,
      "learning_rate": 5e-05,
      "loss": 1.8033,
      "step": 5405
    },
    {
      "epoch": 0.18928379106085083,
      "grad_norm": 0.3007482886314392,
      "learning_rate": 5e-05,
      "loss": 2.2596,
      "step": 5406
    },
    {
      "epoch": 0.1894184168012924,
      "grad_norm": 0.29866695404052734,
      "learning_rate": 5e-05,
      "loss": 2.5095,
      "step": 5407
    },
    {
      "epoch": 0.18955304254173397,
      "grad_norm": 0.3543303310871124,
      "learning_rate": 5e-05,
      "loss": 2.5238,
      "step": 5408
    },
    {
      "epoch": 0.18968766828217556,
      "grad_norm": 0.26045385003089905,
      "learning_rate": 5e-05,
      "loss": 2.045,
      "step": 5409
    },
    {
      "epoch": 0.18982229402261713,
      "grad_norm": 0.264652818441391,
      "learning_rate": 5e-05,
      "loss": 1.8627,
      "step": 5410
    },
    {
      "epoch": 0.1899569197630587,
      "grad_norm": 0.2913172245025635,
      "learning_rate": 5e-05,
      "loss": 2.3504,
      "step": 5411
    },
    {
      "epoch": 0.19009154550350027,
      "grad_norm": 0.2833820879459381,
      "learning_rate": 5e-05,
      "loss": 1.9511,
      "step": 5412
    },
    {
      "epoch": 0.19022617124394184,
      "grad_norm": 0.2654894292354584,
      "learning_rate": 5e-05,
      "loss": 1.9512,
      "step": 5413
    },
    {
      "epoch": 0.1903607969843834,
      "grad_norm": 0.2680296301841736,
      "learning_rate": 5e-05,
      "loss": 2.1498,
      "step": 5414
    },
    {
      "epoch": 0.19049542272482498,
      "grad_norm": 0.25348100066185,
      "learning_rate": 5e-05,
      "loss": 1.5122,
      "step": 5415
    },
    {
      "epoch": 0.19063004846526657,
      "grad_norm": 0.44774129986763,
      "learning_rate": 5e-05,
      "loss": 2.888,
      "step": 5416
    },
    {
      "epoch": 0.19076467420570814,
      "grad_norm": 0.25822415947914124,
      "learning_rate": 5e-05,
      "loss": 2.0964,
      "step": 5417
    },
    {
      "epoch": 0.1908992999461497,
      "grad_norm": 0.2961863577365875,
      "learning_rate": 5e-05,
      "loss": 2.1467,
      "step": 5418
    },
    {
      "epoch": 0.19103392568659128,
      "grad_norm": 0.29158058762550354,
      "learning_rate": 5e-05,
      "loss": 2.6501,
      "step": 5419
    },
    {
      "epoch": 0.19116855142703285,
      "grad_norm": 0.2849750518798828,
      "learning_rate": 5e-05,
      "loss": 2.6275,
      "step": 5420
    },
    {
      "epoch": 0.19130317716747441,
      "grad_norm": 0.28537967801094055,
      "learning_rate": 5e-05,
      "loss": 2.3756,
      "step": 5421
    },
    {
      "epoch": 0.19143780290791598,
      "grad_norm": 0.30268949270248413,
      "learning_rate": 5e-05,
      "loss": 2.4241,
      "step": 5422
    },
    {
      "epoch": 0.19157242864835758,
      "grad_norm": 0.2823295593261719,
      "learning_rate": 5e-05,
      "loss": 1.7975,
      "step": 5423
    },
    {
      "epoch": 0.19170705438879915,
      "grad_norm": 0.262077271938324,
      "learning_rate": 5e-05,
      "loss": 1.8169,
      "step": 5424
    },
    {
      "epoch": 0.19184168012924072,
      "grad_norm": 0.3008923828601837,
      "learning_rate": 5e-05,
      "loss": 2.7014,
      "step": 5425
    },
    {
      "epoch": 0.19197630586968228,
      "grad_norm": 0.27215248346328735,
      "learning_rate": 5e-05,
      "loss": 1.9212,
      "step": 5426
    },
    {
      "epoch": 0.19211093161012385,
      "grad_norm": 0.43111899495124817,
      "learning_rate": 5e-05,
      "loss": 3.1136,
      "step": 5427
    },
    {
      "epoch": 0.19224555735056542,
      "grad_norm": 0.2522633969783783,
      "learning_rate": 5e-05,
      "loss": 1.8797,
      "step": 5428
    },
    {
      "epoch": 0.192380183091007,
      "grad_norm": 0.3227531909942627,
      "learning_rate": 5e-05,
      "loss": 3.3363,
      "step": 5429
    },
    {
      "epoch": 0.1925148088314486,
      "grad_norm": 0.36752617359161377,
      "learning_rate": 5e-05,
      "loss": 2.4545,
      "step": 5430
    },
    {
      "epoch": 0.19264943457189015,
      "grad_norm": 0.2664724588394165,
      "learning_rate": 5e-05,
      "loss": 1.7242,
      "step": 5431
    },
    {
      "epoch": 0.19278406031233172,
      "grad_norm": 0.24934785068035126,
      "learning_rate": 5e-05,
      "loss": 1.645,
      "step": 5432
    },
    {
      "epoch": 0.1929186860527733,
      "grad_norm": 0.2780950665473938,
      "learning_rate": 5e-05,
      "loss": 2.0734,
      "step": 5433
    },
    {
      "epoch": 0.19305331179321486,
      "grad_norm": 0.27292606234550476,
      "learning_rate": 5e-05,
      "loss": 2.4793,
      "step": 5434
    },
    {
      "epoch": 0.19318793753365643,
      "grad_norm": 0.2656388282775879,
      "learning_rate": 5e-05,
      "loss": 2.0036,
      "step": 5435
    },
    {
      "epoch": 0.193322563274098,
      "grad_norm": 0.28176236152648926,
      "learning_rate": 5e-05,
      "loss": 2.0498,
      "step": 5436
    },
    {
      "epoch": 0.1934571890145396,
      "grad_norm": 0.3030923902988434,
      "learning_rate": 5e-05,
      "loss": 2.1717,
      "step": 5437
    },
    {
      "epoch": 0.19359181475498116,
      "grad_norm": 0.30820775032043457,
      "learning_rate": 5e-05,
      "loss": 2.2207,
      "step": 5438
    },
    {
      "epoch": 0.19372644049542273,
      "grad_norm": 0.29804056882858276,
      "learning_rate": 5e-05,
      "loss": 2.1689,
      "step": 5439
    },
    {
      "epoch": 0.1938610662358643,
      "grad_norm": 0.27483266592025757,
      "learning_rate": 5e-05,
      "loss": 2.1634,
      "step": 5440
    },
    {
      "epoch": 0.19399569197630587,
      "grad_norm": 0.25515344738960266,
      "learning_rate": 5e-05,
      "loss": 1.9067,
      "step": 5441
    },
    {
      "epoch": 0.19413031771674744,
      "grad_norm": 0.3195629119873047,
      "learning_rate": 5e-05,
      "loss": 2.7881,
      "step": 5442
    },
    {
      "epoch": 0.194264943457189,
      "grad_norm": 0.2689175307750702,
      "learning_rate": 5e-05,
      "loss": 2.0215,
      "step": 5443
    },
    {
      "epoch": 0.1943995691976306,
      "grad_norm": 0.2705596089363098,
      "learning_rate": 5e-05,
      "loss": 2.1383,
      "step": 5444
    },
    {
      "epoch": 0.19453419493807217,
      "grad_norm": 0.24898263812065125,
      "learning_rate": 5e-05,
      "loss": 1.8238,
      "step": 5445
    },
    {
      "epoch": 0.19466882067851374,
      "grad_norm": 0.3002001643180847,
      "learning_rate": 5e-05,
      "loss": 2.0629,
      "step": 5446
    },
    {
      "epoch": 0.1948034464189553,
      "grad_norm": 0.2650315463542938,
      "learning_rate": 5e-05,
      "loss": 1.979,
      "step": 5447
    },
    {
      "epoch": 0.19493807215939687,
      "grad_norm": 0.2731972634792328,
      "learning_rate": 5e-05,
      "loss": 1.8559,
      "step": 5448
    },
    {
      "epoch": 0.19507269789983844,
      "grad_norm": 0.2996218800544739,
      "learning_rate": 5e-05,
      "loss": 2.1945,
      "step": 5449
    },
    {
      "epoch": 0.19520732364028,
      "grad_norm": 0.3905254304409027,
      "learning_rate": 5e-05,
      "loss": 2.5802,
      "step": 5450
    },
    {
      "epoch": 0.19534194938072158,
      "grad_norm": 0.35089054703712463,
      "learning_rate": 5e-05,
      "loss": 2.3363,
      "step": 5451
    },
    {
      "epoch": 0.19547657512116318,
      "grad_norm": 0.2563694715499878,
      "learning_rate": 5e-05,
      "loss": 1.8283,
      "step": 5452
    },
    {
      "epoch": 0.19561120086160474,
      "grad_norm": 0.26909637451171875,
      "learning_rate": 5e-05,
      "loss": 1.842,
      "step": 5453
    },
    {
      "epoch": 0.1957458266020463,
      "grad_norm": 0.43933185935020447,
      "learning_rate": 5e-05,
      "loss": 3.291,
      "step": 5454
    },
    {
      "epoch": 0.19588045234248788,
      "grad_norm": 0.2602284252643585,
      "learning_rate": 5e-05,
      "loss": 1.8433,
      "step": 5455
    },
    {
      "epoch": 0.19601507808292945,
      "grad_norm": 0.3020581603050232,
      "learning_rate": 5e-05,
      "loss": 1.9693,
      "step": 5456
    },
    {
      "epoch": 0.19614970382337102,
      "grad_norm": 0.2973073720932007,
      "learning_rate": 5e-05,
      "loss": 1.9584,
      "step": 5457
    },
    {
      "epoch": 0.1962843295638126,
      "grad_norm": 0.2852761149406433,
      "learning_rate": 5e-05,
      "loss": 1.9862,
      "step": 5458
    },
    {
      "epoch": 0.19641895530425418,
      "grad_norm": 0.3299017548561096,
      "learning_rate": 5e-05,
      "loss": 2.3529,
      "step": 5459
    },
    {
      "epoch": 0.19655358104469575,
      "grad_norm": 0.2552221715450287,
      "learning_rate": 5e-05,
      "loss": 1.9131,
      "step": 5460
    },
    {
      "epoch": 0.19668820678513732,
      "grad_norm": 0.27738404273986816,
      "learning_rate": 5e-05,
      "loss": 2.149,
      "step": 5461
    },
    {
      "epoch": 0.1968228325255789,
      "grad_norm": 0.30998778343200684,
      "learning_rate": 5e-05,
      "loss": 2.1777,
      "step": 5462
    },
    {
      "epoch": 0.19695745826602046,
      "grad_norm": 0.31427791714668274,
      "learning_rate": 5e-05,
      "loss": 1.9657,
      "step": 5463
    },
    {
      "epoch": 0.19709208400646203,
      "grad_norm": 0.40240153670310974,
      "learning_rate": 5e-05,
      "loss": 2.8522,
      "step": 5464
    },
    {
      "epoch": 0.1972267097469036,
      "grad_norm": 0.2765740752220154,
      "learning_rate": 5e-05,
      "loss": 1.9424,
      "step": 5465
    },
    {
      "epoch": 0.1973613354873452,
      "grad_norm": 0.27336835861206055,
      "learning_rate": 5e-05,
      "loss": 1.7567,
      "step": 5466
    },
    {
      "epoch": 0.19749596122778676,
      "grad_norm": 0.32333239912986755,
      "learning_rate": 5e-05,
      "loss": 2.3886,
      "step": 5467
    },
    {
      "epoch": 0.19763058696822833,
      "grad_norm": 0.3570100665092468,
      "learning_rate": 5e-05,
      "loss": 2.0568,
      "step": 5468
    },
    {
      "epoch": 0.1977652127086699,
      "grad_norm": 0.28462862968444824,
      "learning_rate": 5e-05,
      "loss": 1.8182,
      "step": 5469
    },
    {
      "epoch": 0.19789983844911146,
      "grad_norm": 0.24932241439819336,
      "learning_rate": 5e-05,
      "loss": 1.4056,
      "step": 5470
    },
    {
      "epoch": 0.19803446418955303,
      "grad_norm": 0.2776373624801636,
      "learning_rate": 5e-05,
      "loss": 2.4336,
      "step": 5471
    },
    {
      "epoch": 0.1981690899299946,
      "grad_norm": 0.27612704038619995,
      "learning_rate": 5e-05,
      "loss": 1.7535,
      "step": 5472
    },
    {
      "epoch": 0.1983037156704362,
      "grad_norm": 0.2837172746658325,
      "learning_rate": 5e-05,
      "loss": 1.8371,
      "step": 5473
    },
    {
      "epoch": 0.19843834141087777,
      "grad_norm": 0.25930362939834595,
      "learning_rate": 5e-05,
      "loss": 1.5878,
      "step": 5474
    },
    {
      "epoch": 0.19857296715131934,
      "grad_norm": 0.26900094747543335,
      "learning_rate": 5e-05,
      "loss": 1.8868,
      "step": 5475
    },
    {
      "epoch": 0.1987075928917609,
      "grad_norm": 0.26046693325042725,
      "learning_rate": 5e-05,
      "loss": 1.7586,
      "step": 5476
    },
    {
      "epoch": 0.19884221863220247,
      "grad_norm": 0.2711182236671448,
      "learning_rate": 5e-05,
      "loss": 2.3961,
      "step": 5477
    },
    {
      "epoch": 0.19897684437264404,
      "grad_norm": 0.2520701587200165,
      "learning_rate": 5e-05,
      "loss": 1.8324,
      "step": 5478
    },
    {
      "epoch": 0.1991114701130856,
      "grad_norm": 0.26689091324806213,
      "learning_rate": 5e-05,
      "loss": 1.7547,
      "step": 5479
    },
    {
      "epoch": 0.1992460958535272,
      "grad_norm": 0.28083381056785583,
      "learning_rate": 5e-05,
      "loss": 2.0357,
      "step": 5480
    },
    {
      "epoch": 0.19938072159396877,
      "grad_norm": 0.2685169279575348,
      "learning_rate": 5e-05,
      "loss": 2.1342,
      "step": 5481
    },
    {
      "epoch": 0.19951534733441034,
      "grad_norm": 0.2711472511291504,
      "learning_rate": 5e-05,
      "loss": 2.0195,
      "step": 5482
    },
    {
      "epoch": 0.1996499730748519,
      "grad_norm": 0.2577960789203644,
      "learning_rate": 5e-05,
      "loss": 1.9918,
      "step": 5483
    },
    {
      "epoch": 0.19978459881529348,
      "grad_norm": 0.26312801241874695,
      "learning_rate": 5e-05,
      "loss": 2.3337,
      "step": 5484
    },
    {
      "epoch": 0.19991922455573505,
      "grad_norm": 0.27107998728752136,
      "learning_rate": 5e-05,
      "loss": 1.998,
      "step": 5485
    },
    {
      "epoch": 0.20005385029617662,
      "grad_norm": 0.38323065638542175,
      "learning_rate": 5e-05,
      "loss": 2.8655,
      "step": 5486
    },
    {
      "epoch": 0.2001884760366182,
      "grad_norm": 0.2531750202178955,
      "learning_rate": 5e-05,
      "loss": 1.895,
      "step": 5487
    },
    {
      "epoch": 0.20032310177705978,
      "grad_norm": 0.25092193484306335,
      "learning_rate": 5e-05,
      "loss": 2.0432,
      "step": 5488
    },
    {
      "epoch": 0.20045772751750135,
      "grad_norm": 0.24996384978294373,
      "learning_rate": 5e-05,
      "loss": 1.7009,
      "step": 5489
    },
    {
      "epoch": 0.20059235325794292,
      "grad_norm": 0.29300224781036377,
      "learning_rate": 5e-05,
      "loss": 2.9252,
      "step": 5490
    },
    {
      "epoch": 0.2007269789983845,
      "grad_norm": 0.3326547145843506,
      "learning_rate": 5e-05,
      "loss": 2.2216,
      "step": 5491
    },
    {
      "epoch": 0.20086160473882606,
      "grad_norm": 0.3567700684070587,
      "learning_rate": 5e-05,
      "loss": 2.3909,
      "step": 5492
    },
    {
      "epoch": 0.20099623047926762,
      "grad_norm": 0.2754991054534912,
      "learning_rate": 5e-05,
      "loss": 1.9359,
      "step": 5493
    },
    {
      "epoch": 0.20113085621970922,
      "grad_norm": 0.2853119969367981,
      "learning_rate": 5e-05,
      "loss": 1.9906,
      "step": 5494
    },
    {
      "epoch": 0.2012654819601508,
      "grad_norm": 0.2585467994213104,
      "learning_rate": 5e-05,
      "loss": 2.037,
      "step": 5495
    },
    {
      "epoch": 0.20140010770059236,
      "grad_norm": 0.28321221470832825,
      "learning_rate": 5e-05,
      "loss": 2.5792,
      "step": 5496
    },
    {
      "epoch": 0.20153473344103393,
      "grad_norm": 0.2886955440044403,
      "learning_rate": 5e-05,
      "loss": 2.1436,
      "step": 5497
    },
    {
      "epoch": 0.2016693591814755,
      "grad_norm": 0.26344034075737,
      "learning_rate": 5e-05,
      "loss": 1.6297,
      "step": 5498
    },
    {
      "epoch": 0.20180398492191706,
      "grad_norm": 0.2676458954811096,
      "learning_rate": 5e-05,
      "loss": 1.9048,
      "step": 5499
    },
    {
      "epoch": 0.20193861066235863,
      "grad_norm": 0.38820967078208923,
      "learning_rate": 5e-05,
      "loss": 3.002,
      "step": 5500
    },
    {
      "epoch": 0.20207323640280023,
      "grad_norm": 0.257506400346756,
      "learning_rate": 5e-05,
      "loss": 1.726,
      "step": 5501
    },
    {
      "epoch": 0.2022078621432418,
      "grad_norm": 0.2997369170188904,
      "learning_rate": 5e-05,
      "loss": 1.9857,
      "step": 5502
    },
    {
      "epoch": 0.20234248788368336,
      "grad_norm": 0.2757980525493622,
      "learning_rate": 5e-05,
      "loss": 1.8328,
      "step": 5503
    },
    {
      "epoch": 0.20247711362412493,
      "grad_norm": 0.2625214457511902,
      "learning_rate": 5e-05,
      "loss": 1.6969,
      "step": 5504
    },
    {
      "epoch": 0.2026117393645665,
      "grad_norm": 0.2736383378505707,
      "learning_rate": 5e-05,
      "loss": 1.9665,
      "step": 5505
    },
    {
      "epoch": 0.20274636510500807,
      "grad_norm": 0.2615673840045929,
      "learning_rate": 5e-05,
      "loss": 1.9973,
      "step": 5506
    },
    {
      "epoch": 0.20288099084544964,
      "grad_norm": 0.32177966833114624,
      "learning_rate": 5e-05,
      "loss": 2.3281,
      "step": 5507
    },
    {
      "epoch": 0.20301561658589123,
      "grad_norm": 0.26028409600257874,
      "learning_rate": 5e-05,
      "loss": 1.6498,
      "step": 5508
    },
    {
      "epoch": 0.2031502423263328,
      "grad_norm": 0.28657761216163635,
      "learning_rate": 5e-05,
      "loss": 2.041,
      "step": 5509
    },
    {
      "epoch": 0.20328486806677437,
      "grad_norm": 0.2730523943901062,
      "learning_rate": 5e-05,
      "loss": 1.9437,
      "step": 5510
    },
    {
      "epoch": 0.20341949380721594,
      "grad_norm": 0.28232309222221375,
      "learning_rate": 5e-05,
      "loss": 1.772,
      "step": 5511
    },
    {
      "epoch": 0.2035541195476575,
      "grad_norm": 0.26001471281051636,
      "learning_rate": 5e-05,
      "loss": 1.8685,
      "step": 5512
    },
    {
      "epoch": 0.20368874528809908,
      "grad_norm": 0.29234808683395386,
      "learning_rate": 5e-05,
      "loss": 2.6436,
      "step": 5513
    },
    {
      "epoch": 0.20382337102854065,
      "grad_norm": 0.32604730129241943,
      "learning_rate": 5e-05,
      "loss": 2.4973,
      "step": 5514
    },
    {
      "epoch": 0.20395799676898224,
      "grad_norm": 0.30489441752433777,
      "learning_rate": 5e-05,
      "loss": 2.1026,
      "step": 5515
    },
    {
      "epoch": 0.2040926225094238,
      "grad_norm": 0.27755022048950195,
      "learning_rate": 5e-05,
      "loss": 1.8773,
      "step": 5516
    },
    {
      "epoch": 0.20422724824986538,
      "grad_norm": 0.26087626814842224,
      "learning_rate": 5e-05,
      "loss": 1.9694,
      "step": 5517
    },
    {
      "epoch": 0.20436187399030695,
      "grad_norm": 0.250620573759079,
      "learning_rate": 5e-05,
      "loss": 1.627,
      "step": 5518
    },
    {
      "epoch": 0.20449649973074852,
      "grad_norm": 0.32179075479507446,
      "learning_rate": 5e-05,
      "loss": 2.9562,
      "step": 5519
    },
    {
      "epoch": 0.20463112547119008,
      "grad_norm": 0.28948262333869934,
      "learning_rate": 5e-05,
      "loss": 2.441,
      "step": 5520
    },
    {
      "epoch": 0.20476575121163165,
      "grad_norm": 0.2701137065887451,
      "learning_rate": 5e-05,
      "loss": 1.9755,
      "step": 5521
    },
    {
      "epoch": 0.20490037695207325,
      "grad_norm": 0.2549495995044708,
      "learning_rate": 5e-05,
      "loss": 1.6851,
      "step": 5522
    },
    {
      "epoch": 0.20503500269251482,
      "grad_norm": 0.25855308771133423,
      "learning_rate": 5e-05,
      "loss": 1.6638,
      "step": 5523
    },
    {
      "epoch": 0.20516962843295639,
      "grad_norm": 0.2358342707157135,
      "learning_rate": 5e-05,
      "loss": 1.3956,
      "step": 5524
    },
    {
      "epoch": 0.20530425417339795,
      "grad_norm": 0.24913685023784637,
      "learning_rate": 5e-05,
      "loss": 1.9792,
      "step": 5525
    },
    {
      "epoch": 0.20543887991383952,
      "grad_norm": 0.25681862235069275,
      "learning_rate": 5e-05,
      "loss": 1.8009,
      "step": 5526
    },
    {
      "epoch": 0.2055735056542811,
      "grad_norm": 0.24880540370941162,
      "learning_rate": 5e-05,
      "loss": 1.6734,
      "step": 5527
    },
    {
      "epoch": 0.20570813139472266,
      "grad_norm": 0.26227709650993347,
      "learning_rate": 5e-05,
      "loss": 1.7899,
      "step": 5528
    },
    {
      "epoch": 0.20584275713516426,
      "grad_norm": 0.2683931589126587,
      "learning_rate": 5e-05,
      "loss": 2.2652,
      "step": 5529
    },
    {
      "epoch": 0.20597738287560582,
      "grad_norm": 0.25510701537132263,
      "learning_rate": 5e-05,
      "loss": 1.626,
      "step": 5530
    },
    {
      "epoch": 0.2061120086160474,
      "grad_norm": 0.2942754626274109,
      "learning_rate": 5e-05,
      "loss": 2.321,
      "step": 5531
    },
    {
      "epoch": 0.20624663435648896,
      "grad_norm": 0.3205723762512207,
      "learning_rate": 5e-05,
      "loss": 2.5535,
      "step": 5532
    },
    {
      "epoch": 0.20638126009693053,
      "grad_norm": 0.2928518056869507,
      "learning_rate": 5e-05,
      "loss": 2.2418,
      "step": 5533
    },
    {
      "epoch": 0.2065158858373721,
      "grad_norm": 0.2699294686317444,
      "learning_rate": 5e-05,
      "loss": 1.9568,
      "step": 5534
    },
    {
      "epoch": 0.20665051157781367,
      "grad_norm": 0.24759936332702637,
      "learning_rate": 5e-05,
      "loss": 1.7995,
      "step": 5535
    },
    {
      "epoch": 0.20678513731825526,
      "grad_norm": 0.2773449718952179,
      "learning_rate": 5e-05,
      "loss": 1.9647,
      "step": 5536
    },
    {
      "epoch": 0.20691976305869683,
      "grad_norm": 0.27160337567329407,
      "learning_rate": 5e-05,
      "loss": 1.6706,
      "step": 5537
    },
    {
      "epoch": 0.2070543887991384,
      "grad_norm": 0.27325281500816345,
      "learning_rate": 5e-05,
      "loss": 2.0733,
      "step": 5538
    },
    {
      "epoch": 0.20718901453957997,
      "grad_norm": 0.32647833228111267,
      "learning_rate": 5e-05,
      "loss": 2.3851,
      "step": 5539
    },
    {
      "epoch": 0.20732364028002154,
      "grad_norm": 0.25172317028045654,
      "learning_rate": 5e-05,
      "loss": 1.8144,
      "step": 5540
    },
    {
      "epoch": 0.2074582660204631,
      "grad_norm": 0.25660109519958496,
      "learning_rate": 5e-05,
      "loss": 1.8072,
      "step": 5541
    },
    {
      "epoch": 0.20759289176090467,
      "grad_norm": 0.3184184730052948,
      "learning_rate": 5e-05,
      "loss": 2.8656,
      "step": 5542
    },
    {
      "epoch": 0.20772751750134627,
      "grad_norm": 0.27047523856163025,
      "learning_rate": 5e-05,
      "loss": 2.227,
      "step": 5543
    },
    {
      "epoch": 0.20786214324178784,
      "grad_norm": 0.27967092394828796,
      "learning_rate": 5e-05,
      "loss": 2.4826,
      "step": 5544
    },
    {
      "epoch": 0.2079967689822294,
      "grad_norm": 0.2786320149898529,
      "learning_rate": 5e-05,
      "loss": 1.9628,
      "step": 5545
    },
    {
      "epoch": 0.20813139472267098,
      "grad_norm": 0.26326984167099,
      "learning_rate": 5e-05,
      "loss": 1.5609,
      "step": 5546
    },
    {
      "epoch": 0.20826602046311254,
      "grad_norm": 0.30761945247650146,
      "learning_rate": 5e-05,
      "loss": 2.099,
      "step": 5547
    },
    {
      "epoch": 0.2084006462035541,
      "grad_norm": 0.2625718116760254,
      "learning_rate": 5e-05,
      "loss": 1.8575,
      "step": 5548
    },
    {
      "epoch": 0.20853527194399568,
      "grad_norm": 0.2688015103340149,
      "learning_rate": 5e-05,
      "loss": 1.6011,
      "step": 5549
    },
    {
      "epoch": 0.20866989768443728,
      "grad_norm": 0.2853860557079315,
      "learning_rate": 5e-05,
      "loss": 1.7345,
      "step": 5550
    },
    {
      "epoch": 0.20880452342487885,
      "grad_norm": 0.26661354303359985,
      "learning_rate": 5e-05,
      "loss": 1.5977,
      "step": 5551
    },
    {
      "epoch": 0.20893914916532041,
      "grad_norm": 0.25599417090415955,
      "learning_rate": 5e-05,
      "loss": 2.2414,
      "step": 5552
    },
    {
      "epoch": 0.20907377490576198,
      "grad_norm": 0.25943267345428467,
      "learning_rate": 5e-05,
      "loss": 1.9823,
      "step": 5553
    },
    {
      "epoch": 0.20920840064620355,
      "grad_norm": 0.254363477230072,
      "learning_rate": 5e-05,
      "loss": 1.8243,
      "step": 5554
    },
    {
      "epoch": 0.20934302638664512,
      "grad_norm": 0.3147851228713989,
      "learning_rate": 5e-05,
      "loss": 2.1503,
      "step": 5555
    },
    {
      "epoch": 0.2094776521270867,
      "grad_norm": 0.2779073119163513,
      "learning_rate": 5e-05,
      "loss": 1.6773,
      "step": 5556
    },
    {
      "epoch": 0.20961227786752828,
      "grad_norm": 0.3002081513404846,
      "learning_rate": 5e-05,
      "loss": 2.2689,
      "step": 5557
    },
    {
      "epoch": 0.20974690360796985,
      "grad_norm": 0.2907138466835022,
      "learning_rate": 5e-05,
      "loss": 2.1989,
      "step": 5558
    },
    {
      "epoch": 0.20988152934841142,
      "grad_norm": 0.27264124155044556,
      "learning_rate": 5e-05,
      "loss": 1.9951,
      "step": 5559
    },
    {
      "epoch": 0.210016155088853,
      "grad_norm": 0.2643091082572937,
      "learning_rate": 5e-05,
      "loss": 2.0209,
      "step": 5560
    },
    {
      "epoch": 0.21015078082929456,
      "grad_norm": 0.25358131527900696,
      "learning_rate": 5e-05,
      "loss": 1.8545,
      "step": 5561
    },
    {
      "epoch": 0.21028540656973613,
      "grad_norm": 0.2806519865989685,
      "learning_rate": 5e-05,
      "loss": 1.849,
      "step": 5562
    },
    {
      "epoch": 0.2104200323101777,
      "grad_norm": 0.2535727918148041,
      "learning_rate": 5e-05,
      "loss": 1.7958,
      "step": 5563
    },
    {
      "epoch": 0.2105546580506193,
      "grad_norm": 0.24527080357074738,
      "learning_rate": 5e-05,
      "loss": 1.6685,
      "step": 5564
    },
    {
      "epoch": 0.21068928379106086,
      "grad_norm": 0.29345273971557617,
      "learning_rate": 5e-05,
      "loss": 2.335,
      "step": 5565
    },
    {
      "epoch": 0.21082390953150243,
      "grad_norm": 0.28667140007019043,
      "learning_rate": 5e-05,
      "loss": 2.3024,
      "step": 5566
    },
    {
      "epoch": 0.210958535271944,
      "grad_norm": 0.26039737462997437,
      "learning_rate": 5e-05,
      "loss": 1.9232,
      "step": 5567
    },
    {
      "epoch": 0.21109316101238557,
      "grad_norm": 0.2689603567123413,
      "learning_rate": 5e-05,
      "loss": 2.0805,
      "step": 5568
    },
    {
      "epoch": 0.21122778675282713,
      "grad_norm": 0.6445642113685608,
      "learning_rate": 5e-05,
      "loss": 3.6557,
      "step": 5569
    },
    {
      "epoch": 0.2113624124932687,
      "grad_norm": 0.2762974202632904,
      "learning_rate": 5e-05,
      "loss": 1.9344,
      "step": 5570
    },
    {
      "epoch": 0.21149703823371027,
      "grad_norm": 0.27482566237449646,
      "learning_rate": 5e-05,
      "loss": 1.8333,
      "step": 5571
    },
    {
      "epoch": 0.21163166397415187,
      "grad_norm": 0.29773515462875366,
      "learning_rate": 5e-05,
      "loss": 1.7805,
      "step": 5572
    },
    {
      "epoch": 0.21176628971459344,
      "grad_norm": 0.24718263745307922,
      "learning_rate": 5e-05,
      "loss": 1.6281,
      "step": 5573
    },
    {
      "epoch": 0.211900915455035,
      "grad_norm": 0.30459272861480713,
      "learning_rate": 5e-05,
      "loss": 2.3493,
      "step": 5574
    },
    {
      "epoch": 0.21203554119547657,
      "grad_norm": 0.2623862028121948,
      "learning_rate": 5e-05,
      "loss": 2.1426,
      "step": 5575
    },
    {
      "epoch": 0.21217016693591814,
      "grad_norm": 0.2643986940383911,
      "learning_rate": 5e-05,
      "loss": 1.7001,
      "step": 5576
    },
    {
      "epoch": 0.2123047926763597,
      "grad_norm": 0.347748726606369,
      "learning_rate": 5e-05,
      "loss": 2.8766,
      "step": 5577
    },
    {
      "epoch": 0.21243941841680128,
      "grad_norm": 0.2950561046600342,
      "learning_rate": 5e-05,
      "loss": 1.6351,
      "step": 5578
    },
    {
      "epoch": 0.21257404415724288,
      "grad_norm": 0.33724650740623474,
      "learning_rate": 5e-05,
      "loss": 1.7159,
      "step": 5579
    },
    {
      "epoch": 0.21270866989768444,
      "grad_norm": 0.2727634310722351,
      "learning_rate": 5e-05,
      "loss": 2.0321,
      "step": 5580
    },
    {
      "epoch": 0.212843295638126,
      "grad_norm": 0.27136725187301636,
      "learning_rate": 5e-05,
      "loss": 1.9794,
      "step": 5581
    },
    {
      "epoch": 0.21297792137856758,
      "grad_norm": 0.2917540669441223,
      "learning_rate": 5e-05,
      "loss": 2.0454,
      "step": 5582
    },
    {
      "epoch": 0.21311254711900915,
      "grad_norm": 0.2681114673614502,
      "learning_rate": 5e-05,
      "loss": 2.1194,
      "step": 5583
    },
    {
      "epoch": 0.21324717285945072,
      "grad_norm": 0.29278185963630676,
      "learning_rate": 5e-05,
      "loss": 2.5997,
      "step": 5584
    },
    {
      "epoch": 0.2133817985998923,
      "grad_norm": 0.2450791299343109,
      "learning_rate": 5e-05,
      "loss": 1.6982,
      "step": 5585
    },
    {
      "epoch": 0.21351642434033388,
      "grad_norm": 0.2574395537376404,
      "learning_rate": 5e-05,
      "loss": 1.894,
      "step": 5586
    },
    {
      "epoch": 0.21365105008077545,
      "grad_norm": 0.25598037242889404,
      "learning_rate": 5e-05,
      "loss": 1.9363,
      "step": 5587
    },
    {
      "epoch": 0.21378567582121702,
      "grad_norm": 0.42420029640197754,
      "learning_rate": 5e-05,
      "loss": 2.9032,
      "step": 5588
    },
    {
      "epoch": 0.2139203015616586,
      "grad_norm": 0.3076564073562622,
      "learning_rate": 5e-05,
      "loss": 2.749,
      "step": 5589
    },
    {
      "epoch": 0.21405492730210016,
      "grad_norm": 0.2755966782569885,
      "learning_rate": 5e-05,
      "loss": 2.2457,
      "step": 5590
    },
    {
      "epoch": 0.21418955304254172,
      "grad_norm": 0.306995689868927,
      "learning_rate": 5e-05,
      "loss": 2.3023,
      "step": 5591
    },
    {
      "epoch": 0.2143241787829833,
      "grad_norm": 0.26447317004203796,
      "learning_rate": 5e-05,
      "loss": 1.8547,
      "step": 5592
    },
    {
      "epoch": 0.2144588045234249,
      "grad_norm": 0.29226404428482056,
      "learning_rate": 5e-05,
      "loss": 2.3359,
      "step": 5593
    },
    {
      "epoch": 0.21459343026386646,
      "grad_norm": 0.2718043625354767,
      "learning_rate": 5e-05,
      "loss": 2.1465,
      "step": 5594
    },
    {
      "epoch": 0.21472805600430803,
      "grad_norm": 0.28251874446868896,
      "learning_rate": 5e-05,
      "loss": 1.8113,
      "step": 5595
    },
    {
      "epoch": 0.2148626817447496,
      "grad_norm": 0.2570429742336273,
      "learning_rate": 5e-05,
      "loss": 1.6783,
      "step": 5596
    },
    {
      "epoch": 0.21499730748519116,
      "grad_norm": 0.2634533941745758,
      "learning_rate": 5e-05,
      "loss": 1.9606,
      "step": 5597
    },
    {
      "epoch": 0.21513193322563273,
      "grad_norm": 0.2852577269077301,
      "learning_rate": 5e-05,
      "loss": 1.9441,
      "step": 5598
    },
    {
      "epoch": 0.2152665589660743,
      "grad_norm": 0.29394209384918213,
      "learning_rate": 5e-05,
      "loss": 2.4098,
      "step": 5599
    },
    {
      "epoch": 0.2154011847065159,
      "grad_norm": 0.2679547071456909,
      "learning_rate": 5e-05,
      "loss": 2.2268,
      "step": 5600
    },
    {
      "epoch": 0.21553581044695747,
      "grad_norm": 0.24486351013183594,
      "learning_rate": 5e-05,
      "loss": 1.7296,
      "step": 5601
    },
    {
      "epoch": 0.21567043618739903,
      "grad_norm": 0.31667497754096985,
      "learning_rate": 5e-05,
      "loss": 3.2091,
      "step": 5602
    },
    {
      "epoch": 0.2158050619278406,
      "grad_norm": 0.2681393325328827,
      "learning_rate": 5e-05,
      "loss": 1.932,
      "step": 5603
    },
    {
      "epoch": 0.21593968766828217,
      "grad_norm": 0.2745494842529297,
      "learning_rate": 5e-05,
      "loss": 1.7382,
      "step": 5604
    },
    {
      "epoch": 0.21607431340872374,
      "grad_norm": 0.26060837507247925,
      "learning_rate": 5e-05,
      "loss": 1.8337,
      "step": 5605
    },
    {
      "epoch": 0.2162089391491653,
      "grad_norm": 0.2535409927368164,
      "learning_rate": 5e-05,
      "loss": 1.6597,
      "step": 5606
    },
    {
      "epoch": 0.2163435648896069,
      "grad_norm": 0.24988430738449097,
      "learning_rate": 5e-05,
      "loss": 1.7461,
      "step": 5607
    },
    {
      "epoch": 0.21647819063004847,
      "grad_norm": 0.2755921483039856,
      "learning_rate": 5e-05,
      "loss": 1.992,
      "step": 5608
    },
    {
      "epoch": 0.21661281637049004,
      "grad_norm": 0.2969502806663513,
      "learning_rate": 5e-05,
      "loss": 2.1914,
      "step": 5609
    },
    {
      "epoch": 0.2167474421109316,
      "grad_norm": 0.2703106999397278,
      "learning_rate": 5e-05,
      "loss": 1.8878,
      "step": 5610
    },
    {
      "epoch": 0.21688206785137318,
      "grad_norm": 0.2559390366077423,
      "learning_rate": 5e-05,
      "loss": 1.7969,
      "step": 5611
    },
    {
      "epoch": 0.21701669359181475,
      "grad_norm": 0.28441357612609863,
      "learning_rate": 5e-05,
      "loss": 2.2232,
      "step": 5612
    },
    {
      "epoch": 0.21715131933225632,
      "grad_norm": 0.2599891424179077,
      "learning_rate": 5e-05,
      "loss": 1.9694,
      "step": 5613
    },
    {
      "epoch": 0.2172859450726979,
      "grad_norm": 0.28518664836883545,
      "learning_rate": 5e-05,
      "loss": 2.1882,
      "step": 5614
    },
    {
      "epoch": 0.21742057081313948,
      "grad_norm": 0.31477195024490356,
      "learning_rate": 5e-05,
      "loss": 2.4365,
      "step": 5615
    },
    {
      "epoch": 0.21755519655358105,
      "grad_norm": 0.34335678815841675,
      "learning_rate": 5e-05,
      "loss": 2.4928,
      "step": 5616
    },
    {
      "epoch": 0.21768982229402262,
      "grad_norm": 0.3105306029319763,
      "learning_rate": 5e-05,
      "loss": 1.7877,
      "step": 5617
    },
    {
      "epoch": 0.21782444803446419,
      "grad_norm": 0.29831698536872864,
      "learning_rate": 5e-05,
      "loss": 2.9754,
      "step": 5618
    },
    {
      "epoch": 0.21795907377490575,
      "grad_norm": 0.27803295850753784,
      "learning_rate": 5e-05,
      "loss": 2.4484,
      "step": 5619
    },
    {
      "epoch": 0.21809369951534732,
      "grad_norm": 0.4041123688220978,
      "learning_rate": 5e-05,
      "loss": 2.4307,
      "step": 5620
    },
    {
      "epoch": 0.21822832525578892,
      "grad_norm": 0.2713037133216858,
      "learning_rate": 5e-05,
      "loss": 2.012,
      "step": 5621
    },
    {
      "epoch": 0.2183629509962305,
      "grad_norm": 0.28412264585494995,
      "learning_rate": 5e-05,
      "loss": 2.2458,
      "step": 5622
    },
    {
      "epoch": 0.21849757673667206,
      "grad_norm": 0.27532240748405457,
      "learning_rate": 5e-05,
      "loss": 1.6274,
      "step": 5623
    },
    {
      "epoch": 0.21863220247711362,
      "grad_norm": 0.2978541851043701,
      "learning_rate": 5e-05,
      "loss": 1.7093,
      "step": 5624
    },
    {
      "epoch": 0.2187668282175552,
      "grad_norm": 0.30602559447288513,
      "learning_rate": 5e-05,
      "loss": 2.1478,
      "step": 5625
    },
    {
      "epoch": 0.21890145395799676,
      "grad_norm": 0.27014774084091187,
      "learning_rate": 5e-05,
      "loss": 1.8303,
      "step": 5626
    },
    {
      "epoch": 0.21903607969843833,
      "grad_norm": 0.26273661851882935,
      "learning_rate": 5e-05,
      "loss": 1.7069,
      "step": 5627
    },
    {
      "epoch": 0.21917070543887993,
      "grad_norm": 0.27358680963516235,
      "learning_rate": 5e-05,
      "loss": 1.774,
      "step": 5628
    },
    {
      "epoch": 0.2193053311793215,
      "grad_norm": 0.29586535692214966,
      "learning_rate": 5e-05,
      "loss": 2.1378,
      "step": 5629
    },
    {
      "epoch": 0.21943995691976306,
      "grad_norm": 0.29581037163734436,
      "learning_rate": 5e-05,
      "loss": 2.4773,
      "step": 5630
    },
    {
      "epoch": 0.21957458266020463,
      "grad_norm": 0.2664636969566345,
      "learning_rate": 5e-05,
      "loss": 1.7493,
      "step": 5631
    },
    {
      "epoch": 0.2197092084006462,
      "grad_norm": 0.2675023078918457,
      "learning_rate": 5e-05,
      "loss": 1.7456,
      "step": 5632
    },
    {
      "epoch": 0.21984383414108777,
      "grad_norm": 0.2863716185092926,
      "learning_rate": 5e-05,
      "loss": 2.257,
      "step": 5633
    },
    {
      "epoch": 0.21997845988152934,
      "grad_norm": 0.264373242855072,
      "learning_rate": 5e-05,
      "loss": 2.0211,
      "step": 5634
    },
    {
      "epoch": 0.22011308562197093,
      "grad_norm": 0.277703195810318,
      "learning_rate": 5e-05,
      "loss": 1.968,
      "step": 5635
    },
    {
      "epoch": 0.2202477113624125,
      "grad_norm": 0.2533133625984192,
      "learning_rate": 5e-05,
      "loss": 1.7606,
      "step": 5636
    },
    {
      "epoch": 0.22038233710285407,
      "grad_norm": 0.2587968409061432,
      "learning_rate": 5e-05,
      "loss": 1.5784,
      "step": 5637
    },
    {
      "epoch": 0.22051696284329564,
      "grad_norm": 0.2674310803413391,
      "learning_rate": 5e-05,
      "loss": 1.726,
      "step": 5638
    },
    {
      "epoch": 0.2206515885837372,
      "grad_norm": 0.31552690267562866,
      "learning_rate": 5e-05,
      "loss": 2.0979,
      "step": 5639
    },
    {
      "epoch": 0.22078621432417878,
      "grad_norm": 0.24924494326114655,
      "learning_rate": 5e-05,
      "loss": 1.7955,
      "step": 5640
    },
    {
      "epoch": 0.22092084006462034,
      "grad_norm": 0.25499653816223145,
      "learning_rate": 5e-05,
      "loss": 1.8771,
      "step": 5641
    },
    {
      "epoch": 0.22105546580506194,
      "grad_norm": 0.2563685178756714,
      "learning_rate": 5e-05,
      "loss": 1.9625,
      "step": 5642
    },
    {
      "epoch": 0.2211900915455035,
      "grad_norm": 0.28454282879829407,
      "learning_rate": 5e-05,
      "loss": 1.8198,
      "step": 5643
    },
    {
      "epoch": 0.22132471728594508,
      "grad_norm": 0.2764744460582733,
      "learning_rate": 5e-05,
      "loss": 2.0106,
      "step": 5644
    },
    {
      "epoch": 0.22145934302638665,
      "grad_norm": 0.28397491574287415,
      "learning_rate": 5e-05,
      "loss": 2.6823,
      "step": 5645
    },
    {
      "epoch": 0.22159396876682821,
      "grad_norm": 0.2696547508239746,
      "learning_rate": 5e-05,
      "loss": 2.0293,
      "step": 5646
    },
    {
      "epoch": 0.22172859450726978,
      "grad_norm": 0.25506484508514404,
      "learning_rate": 5e-05,
      "loss": 1.7536,
      "step": 5647
    },
    {
      "epoch": 0.22186322024771135,
      "grad_norm": 0.2484266608953476,
      "learning_rate": 5e-05,
      "loss": 1.9906,
      "step": 5648
    },
    {
      "epoch": 0.22199784598815295,
      "grad_norm": 0.2659939229488373,
      "learning_rate": 5e-05,
      "loss": 1.7774,
      "step": 5649
    },
    {
      "epoch": 0.22213247172859452,
      "grad_norm": 0.26802006363868713,
      "learning_rate": 5e-05,
      "loss": 2.0209,
      "step": 5650
    },
    {
      "epoch": 0.22226709746903608,
      "grad_norm": 0.2655666768550873,
      "learning_rate": 5e-05,
      "loss": 1.8708,
      "step": 5651
    },
    {
      "epoch": 0.22240172320947765,
      "grad_norm": 0.27184000611305237,
      "learning_rate": 5e-05,
      "loss": 2.0531,
      "step": 5652
    },
    {
      "epoch": 0.22253634894991922,
      "grad_norm": 0.310488760471344,
      "learning_rate": 5e-05,
      "loss": 2.4731,
      "step": 5653
    },
    {
      "epoch": 0.2226709746903608,
      "grad_norm": 0.2826588749885559,
      "learning_rate": 5e-05,
      "loss": 1.9188,
      "step": 5654
    },
    {
      "epoch": 0.22280560043080236,
      "grad_norm": 0.25567981600761414,
      "learning_rate": 5e-05,
      "loss": 1.7023,
      "step": 5655
    },
    {
      "epoch": 0.22294022617124395,
      "grad_norm": 0.30994105339050293,
      "learning_rate": 5e-05,
      "loss": 2.8826,
      "step": 5656
    },
    {
      "epoch": 0.22307485191168552,
      "grad_norm": 0.2722843587398529,
      "learning_rate": 5e-05,
      "loss": 2.6119,
      "step": 5657
    },
    {
      "epoch": 0.2232094776521271,
      "grad_norm": 0.27453067898750305,
      "learning_rate": 5e-05,
      "loss": 1.8058,
      "step": 5658
    },
    {
      "epoch": 0.22334410339256866,
      "grad_norm": 0.27579256892204285,
      "learning_rate": 5e-05,
      "loss": 2.5674,
      "step": 5659
    },
    {
      "epoch": 0.22347872913301023,
      "grad_norm": 0.2661963105201721,
      "learning_rate": 5e-05,
      "loss": 1.9245,
      "step": 5660
    },
    {
      "epoch": 0.2236133548734518,
      "grad_norm": 0.257680743932724,
      "learning_rate": 5e-05,
      "loss": 1.8179,
      "step": 5661
    },
    {
      "epoch": 0.22374798061389337,
      "grad_norm": 0.2509379982948303,
      "learning_rate": 5e-05,
      "loss": 1.5458,
      "step": 5662
    },
    {
      "epoch": 0.22388260635433496,
      "grad_norm": 0.275642067193985,
      "learning_rate": 5e-05,
      "loss": 1.9962,
      "step": 5663
    },
    {
      "epoch": 0.22401723209477653,
      "grad_norm": 0.2791837155818939,
      "learning_rate": 5e-05,
      "loss": 1.8761,
      "step": 5664
    },
    {
      "epoch": 0.2241518578352181,
      "grad_norm": 0.30962178111076355,
      "learning_rate": 5e-05,
      "loss": 2.1547,
      "step": 5665
    },
    {
      "epoch": 0.22428648357565967,
      "grad_norm": 0.28380751609802246,
      "learning_rate": 5e-05,
      "loss": 2.124,
      "step": 5666
    },
    {
      "epoch": 0.22442110931610124,
      "grad_norm": 0.27950504422187805,
      "learning_rate": 5e-05,
      "loss": 2.1401,
      "step": 5667
    },
    {
      "epoch": 0.2245557350565428,
      "grad_norm": 0.2648102045059204,
      "learning_rate": 5e-05,
      "loss": 1.8936,
      "step": 5668
    },
    {
      "epoch": 0.22469036079698437,
      "grad_norm": 0.25642842054367065,
      "learning_rate": 5e-05,
      "loss": 1.6479,
      "step": 5669
    },
    {
      "epoch": 0.22482498653742597,
      "grad_norm": 0.25186464190483093,
      "learning_rate": 5e-05,
      "loss": 1.9409,
      "step": 5670
    },
    {
      "epoch": 0.22495961227786754,
      "grad_norm": 0.299995094537735,
      "learning_rate": 5e-05,
      "loss": 2.4542,
      "step": 5671
    },
    {
      "epoch": 0.2250942380183091,
      "grad_norm": 0.3091229200363159,
      "learning_rate": 5e-05,
      "loss": 2.5659,
      "step": 5672
    },
    {
      "epoch": 0.22522886375875067,
      "grad_norm": 0.2667543292045593,
      "learning_rate": 5e-05,
      "loss": 1.9872,
      "step": 5673
    },
    {
      "epoch": 0.22536348949919224,
      "grad_norm": 0.2789662778377533,
      "learning_rate": 5e-05,
      "loss": 2.0666,
      "step": 5674
    },
    {
      "epoch": 0.2254981152396338,
      "grad_norm": 0.3158693015575409,
      "learning_rate": 5e-05,
      "loss": 1.9279,
      "step": 5675
    },
    {
      "epoch": 0.22563274098007538,
      "grad_norm": 0.2781817317008972,
      "learning_rate": 5e-05,
      "loss": 2.1482,
      "step": 5676
    },
    {
      "epoch": 0.22576736672051698,
      "grad_norm": 0.2750714421272278,
      "learning_rate": 5e-05,
      "loss": 1.9736,
      "step": 5677
    },
    {
      "epoch": 0.22590199246095855,
      "grad_norm": 0.36046552658081055,
      "learning_rate": 5e-05,
      "loss": 2.4414,
      "step": 5678
    },
    {
      "epoch": 0.2260366182014001,
      "grad_norm": 0.26940491795539856,
      "learning_rate": 5e-05,
      "loss": 1.9408,
      "step": 5679
    },
    {
      "epoch": 0.22617124394184168,
      "grad_norm": 0.26414939761161804,
      "learning_rate": 5e-05,
      "loss": 1.7322,
      "step": 5680
    },
    {
      "epoch": 0.22630586968228325,
      "grad_norm": 0.2600034475326538,
      "learning_rate": 5e-05,
      "loss": 1.8622,
      "step": 5681
    },
    {
      "epoch": 0.22644049542272482,
      "grad_norm": 0.2721141576766968,
      "learning_rate": 5e-05,
      "loss": 1.8471,
      "step": 5682
    },
    {
      "epoch": 0.2265751211631664,
      "grad_norm": 0.3594818115234375,
      "learning_rate": 5e-05,
      "loss": 3.307,
      "step": 5683
    },
    {
      "epoch": 0.22670974690360796,
      "grad_norm": 0.25870272517204285,
      "learning_rate": 5e-05,
      "loss": 1.7844,
      "step": 5684
    },
    {
      "epoch": 0.22684437264404955,
      "grad_norm": 0.2677961587905884,
      "learning_rate": 5e-05,
      "loss": 1.8861,
      "step": 5685
    },
    {
      "epoch": 0.22697899838449112,
      "grad_norm": 0.25215813517570496,
      "learning_rate": 5e-05,
      "loss": 1.7496,
      "step": 5686
    },
    {
      "epoch": 0.2271136241249327,
      "grad_norm": 0.26099005341529846,
      "learning_rate": 5e-05,
      "loss": 1.7976,
      "step": 5687
    },
    {
      "epoch": 0.22724824986537426,
      "grad_norm": 0.26603463292121887,
      "learning_rate": 5e-05,
      "loss": 1.681,
      "step": 5688
    },
    {
      "epoch": 0.22738287560581583,
      "grad_norm": 0.2458769977092743,
      "learning_rate": 5e-05,
      "loss": 1.8047,
      "step": 5689
    },
    {
      "epoch": 0.2275175013462574,
      "grad_norm": 0.28705674409866333,
      "learning_rate": 5e-05,
      "loss": 2.2248,
      "step": 5690
    },
    {
      "epoch": 0.22765212708669896,
      "grad_norm": 0.2882474660873413,
      "learning_rate": 5e-05,
      "loss": 2.2652,
      "step": 5691
    },
    {
      "epoch": 0.22778675282714056,
      "grad_norm": 0.27013346552848816,
      "learning_rate": 5e-05,
      "loss": 2.1879,
      "step": 5692
    },
    {
      "epoch": 0.22792137856758213,
      "grad_norm": 0.2568356692790985,
      "learning_rate": 5e-05,
      "loss": 1.8807,
      "step": 5693
    },
    {
      "epoch": 0.2280560043080237,
      "grad_norm": 0.2713262140750885,
      "learning_rate": 5e-05,
      "loss": 1.729,
      "step": 5694
    },
    {
      "epoch": 0.22819063004846526,
      "grad_norm": 0.29247230291366577,
      "learning_rate": 5e-05,
      "loss": 2.2112,
      "step": 5695
    },
    {
      "epoch": 0.22832525578890683,
      "grad_norm": 0.2654856741428375,
      "learning_rate": 5e-05,
      "loss": 1.8343,
      "step": 5696
    },
    {
      "epoch": 0.2284598815293484,
      "grad_norm": 0.5265982151031494,
      "learning_rate": 5e-05,
      "loss": 3.4761,
      "step": 5697
    },
    {
      "epoch": 0.22859450726978997,
      "grad_norm": 0.26141414046287537,
      "learning_rate": 5e-05,
      "loss": 1.537,
      "step": 5698
    },
    {
      "epoch": 0.22872913301023157,
      "grad_norm": 0.28811225295066833,
      "learning_rate": 5e-05,
      "loss": 1.7278,
      "step": 5699
    },
    {
      "epoch": 0.22886375875067314,
      "grad_norm": 0.3166382610797882,
      "learning_rate": 5e-05,
      "loss": 3.1267,
      "step": 5700
    },
    {
      "epoch": 0.2289983844911147,
      "grad_norm": 0.2699304521083832,
      "learning_rate": 5e-05,
      "loss": 1.7088,
      "step": 5701
    },
    {
      "epoch": 0.22913301023155627,
      "grad_norm": 0.36406949162483215,
      "learning_rate": 5e-05,
      "loss": 2.3101,
      "step": 5702
    },
    {
      "epoch": 0.22926763597199784,
      "grad_norm": 0.27902916073799133,
      "learning_rate": 5e-05,
      "loss": 2.0787,
      "step": 5703
    },
    {
      "epoch": 0.2294022617124394,
      "grad_norm": 0.26999571919441223,
      "learning_rate": 5e-05,
      "loss": 2.257,
      "step": 5704
    },
    {
      "epoch": 0.22953688745288098,
      "grad_norm": 0.2948572337627411,
      "learning_rate": 5e-05,
      "loss": 2.0489,
      "step": 5705
    },
    {
      "epoch": 0.22967151319332257,
      "grad_norm": 0.308578759431839,
      "learning_rate": 5e-05,
      "loss": 1.8142,
      "step": 5706
    },
    {
      "epoch": 0.22980613893376414,
      "grad_norm": 0.31551703810691833,
      "learning_rate": 5e-05,
      "loss": 1.8737,
      "step": 5707
    },
    {
      "epoch": 0.2299407646742057,
      "grad_norm": 0.270405650138855,
      "learning_rate": 5e-05,
      "loss": 2.3248,
      "step": 5708
    },
    {
      "epoch": 0.23007539041464728,
      "grad_norm": 0.27585628628730774,
      "learning_rate": 5e-05,
      "loss": 2.0171,
      "step": 5709
    },
    {
      "epoch": 0.23021001615508885,
      "grad_norm": 0.2602996826171875,
      "learning_rate": 5e-05,
      "loss": 2.0331,
      "step": 5710
    },
    {
      "epoch": 0.23034464189553042,
      "grad_norm": 0.28268736600875854,
      "learning_rate": 5e-05,
      "loss": 1.9549,
      "step": 5711
    },
    {
      "epoch": 0.23047926763597198,
      "grad_norm": 0.273726224899292,
      "learning_rate": 5e-05,
      "loss": 1.8118,
      "step": 5712
    },
    {
      "epoch": 0.23061389337641358,
      "grad_norm": 0.2713996171951294,
      "learning_rate": 5e-05,
      "loss": 1.6466,
      "step": 5713
    },
    {
      "epoch": 0.23074851911685515,
      "grad_norm": 0.2638067603111267,
      "learning_rate": 5e-05,
      "loss": 1.7409,
      "step": 5714
    },
    {
      "epoch": 0.23088314485729672,
      "grad_norm": 0.2831726670265198,
      "learning_rate": 5e-05,
      "loss": 2.6908,
      "step": 5715
    },
    {
      "epoch": 0.2310177705977383,
      "grad_norm": 0.27598491311073303,
      "learning_rate": 5e-05,
      "loss": 2.0249,
      "step": 5716
    },
    {
      "epoch": 0.23115239633817986,
      "grad_norm": 0.29351553320884705,
      "learning_rate": 5e-05,
      "loss": 2.9926,
      "step": 5717
    },
    {
      "epoch": 0.23128702207862142,
      "grad_norm": 0.2606651484966278,
      "learning_rate": 5e-05,
      "loss": 1.8653,
      "step": 5718
    },
    {
      "epoch": 0.231421647819063,
      "grad_norm": 0.2763035297393799,
      "learning_rate": 5e-05,
      "loss": 1.8447,
      "step": 5719
    },
    {
      "epoch": 0.2315562735595046,
      "grad_norm": 0.2536131739616394,
      "learning_rate": 5e-05,
      "loss": 2.3298,
      "step": 5720
    },
    {
      "epoch": 0.23169089929994616,
      "grad_norm": 0.263373464345932,
      "learning_rate": 5e-05,
      "loss": 1.9629,
      "step": 5721
    },
    {
      "epoch": 0.23182552504038773,
      "grad_norm": 0.30324116349220276,
      "learning_rate": 5e-05,
      "loss": 2.7301,
      "step": 5722
    },
    {
      "epoch": 0.2319601507808293,
      "grad_norm": 0.2627022862434387,
      "learning_rate": 5e-05,
      "loss": 1.8854,
      "step": 5723
    },
    {
      "epoch": 0.23209477652127086,
      "grad_norm": 0.2524675130844116,
      "learning_rate": 5e-05,
      "loss": 1.8742,
      "step": 5724
    },
    {
      "epoch": 0.23222940226171243,
      "grad_norm": 0.3095731735229492,
      "learning_rate": 5e-05,
      "loss": 2.1774,
      "step": 5725
    },
    {
      "epoch": 0.232364028002154,
      "grad_norm": 0.2885105013847351,
      "learning_rate": 5e-05,
      "loss": 2.029,
      "step": 5726
    },
    {
      "epoch": 0.2324986537425956,
      "grad_norm": 0.3112648129463196,
      "learning_rate": 5e-05,
      "loss": 2.1491,
      "step": 5727
    },
    {
      "epoch": 0.23263327948303716,
      "grad_norm": 0.25814175605773926,
      "learning_rate": 5e-05,
      "loss": 1.8608,
      "step": 5728
    },
    {
      "epoch": 0.23276790522347873,
      "grad_norm": 0.29471078515052795,
      "learning_rate": 5e-05,
      "loss": 2.8267,
      "step": 5729
    },
    {
      "epoch": 0.2329025309639203,
      "grad_norm": 0.3074701726436615,
      "learning_rate": 5e-05,
      "loss": 2.4266,
      "step": 5730
    },
    {
      "epoch": 0.23303715670436187,
      "grad_norm": 0.29523637890815735,
      "learning_rate": 5e-05,
      "loss": 2.12,
      "step": 5731
    },
    {
      "epoch": 0.23317178244480344,
      "grad_norm": 0.30902501940727234,
      "learning_rate": 5e-05,
      "loss": 2.9876,
      "step": 5732
    },
    {
      "epoch": 0.233306408185245,
      "grad_norm": 0.25201141834259033,
      "learning_rate": 5e-05,
      "loss": 1.6883,
      "step": 5733
    },
    {
      "epoch": 0.2334410339256866,
      "grad_norm": 0.25812527537345886,
      "learning_rate": 5e-05,
      "loss": 1.617,
      "step": 5734
    },
    {
      "epoch": 0.23357565966612817,
      "grad_norm": 0.26894405484199524,
      "learning_rate": 5e-05,
      "loss": 1.8624,
      "step": 5735
    },
    {
      "epoch": 0.23371028540656974,
      "grad_norm": 0.3488462269306183,
      "learning_rate": 5e-05,
      "loss": 2.9832,
      "step": 5736
    },
    {
      "epoch": 0.2338449111470113,
      "grad_norm": 0.27262306213378906,
      "learning_rate": 5e-05,
      "loss": 1.671,
      "step": 5737
    },
    {
      "epoch": 0.23397953688745288,
      "grad_norm": 0.3194037973880768,
      "learning_rate": 5e-05,
      "loss": 2.9679,
      "step": 5738
    },
    {
      "epoch": 0.23411416262789445,
      "grad_norm": 0.3122032582759857,
      "learning_rate": 5e-05,
      "loss": 2.7217,
      "step": 5739
    },
    {
      "epoch": 0.23424878836833601,
      "grad_norm": 0.2598011791706085,
      "learning_rate": 5e-05,
      "loss": 1.726,
      "step": 5740
    },
    {
      "epoch": 0.2343834141087776,
      "grad_norm": 0.613583505153656,
      "learning_rate": 5e-05,
      "loss": 3.4627,
      "step": 5741
    },
    {
      "epoch": 0.23451803984921918,
      "grad_norm": 0.2736818194389343,
      "learning_rate": 5e-05,
      "loss": 2.4827,
      "step": 5742
    },
    {
      "epoch": 0.23465266558966075,
      "grad_norm": 0.29304367303848267,
      "learning_rate": 5e-05,
      "loss": 2.8161,
      "step": 5743
    },
    {
      "epoch": 0.23478729133010232,
      "grad_norm": 0.30816659331321716,
      "learning_rate": 5e-05,
      "loss": 2.1329,
      "step": 5744
    },
    {
      "epoch": 0.23492191707054388,
      "grad_norm": 0.3242647349834442,
      "learning_rate": 5e-05,
      "loss": 2.1413,
      "step": 5745
    },
    {
      "epoch": 0.23505654281098545,
      "grad_norm": 0.2680390179157257,
      "learning_rate": 5e-05,
      "loss": 1.838,
      "step": 5746
    },
    {
      "epoch": 0.23519116855142702,
      "grad_norm": 0.27348917722702026,
      "learning_rate": 5e-05,
      "loss": 1.8921,
      "step": 5747
    },
    {
      "epoch": 0.23532579429186862,
      "grad_norm": 0.27445244789123535,
      "learning_rate": 5e-05,
      "loss": 2.1406,
      "step": 5748
    },
    {
      "epoch": 0.23546042003231019,
      "grad_norm": 0.25431326031684875,
      "learning_rate": 5e-05,
      "loss": 1.6214,
      "step": 5749
    },
    {
      "epoch": 0.23559504577275175,
      "grad_norm": 0.29369962215423584,
      "learning_rate": 5e-05,
      "loss": 2.1808,
      "step": 5750
    },
    {
      "epoch": 0.23572967151319332,
      "grad_norm": 0.33454421162605286,
      "learning_rate": 5e-05,
      "loss": 2.6096,
      "step": 5751
    },
    {
      "epoch": 0.2358642972536349,
      "grad_norm": 0.2742612957954407,
      "learning_rate": 5e-05,
      "loss": 2.0618,
      "step": 5752
    },
    {
      "epoch": 0.23599892299407646,
      "grad_norm": 0.5722274780273438,
      "learning_rate": 5e-05,
      "loss": 3.7351,
      "step": 5753
    },
    {
      "epoch": 0.23613354873451803,
      "grad_norm": 0.2755327820777893,
      "learning_rate": 5e-05,
      "loss": 1.9915,
      "step": 5754
    },
    {
      "epoch": 0.23626817447495962,
      "grad_norm": 0.4068690538406372,
      "learning_rate": 5e-05,
      "loss": 2.469,
      "step": 5755
    },
    {
      "epoch": 0.2364028002154012,
      "grad_norm": 0.30241820216178894,
      "learning_rate": 5e-05,
      "loss": 2.0161,
      "step": 5756
    },
    {
      "epoch": 0.23653742595584276,
      "grad_norm": 0.30810725688934326,
      "learning_rate": 5e-05,
      "loss": 2.996,
      "step": 5757
    },
    {
      "epoch": 0.23667205169628433,
      "grad_norm": 0.2534124255180359,
      "learning_rate": 5e-05,
      "loss": 1.7351,
      "step": 5758
    },
    {
      "epoch": 0.2368066774367259,
      "grad_norm": 0.2504533529281616,
      "learning_rate": 5e-05,
      "loss": 1.8555,
      "step": 5759
    },
    {
      "epoch": 0.23694130317716747,
      "grad_norm": 0.2860187888145447,
      "learning_rate": 5e-05,
      "loss": 2.0521,
      "step": 5760
    },
    {
      "epoch": 0.23707592891760904,
      "grad_norm": 0.3067988455295563,
      "learning_rate": 5e-05,
      "loss": 2.2314,
      "step": 5761
    },
    {
      "epoch": 0.23721055465805063,
      "grad_norm": 0.3721040189266205,
      "learning_rate": 5e-05,
      "loss": 3.01,
      "step": 5762
    },
    {
      "epoch": 0.2373451803984922,
      "grad_norm": 0.27855199575424194,
      "learning_rate": 5e-05,
      "loss": 2.626,
      "step": 5763
    },
    {
      "epoch": 0.23747980613893377,
      "grad_norm": 0.3181683123111725,
      "learning_rate": 5e-05,
      "loss": 3.1397,
      "step": 5764
    },
    {
      "epoch": 0.23761443187937534,
      "grad_norm": 0.25504839420318604,
      "learning_rate": 5e-05,
      "loss": 1.7155,
      "step": 5765
    },
    {
      "epoch": 0.2377490576198169,
      "grad_norm": 0.2703552842140198,
      "learning_rate": 5e-05,
      "loss": 2.5793,
      "step": 5766
    },
    {
      "epoch": 0.23788368336025847,
      "grad_norm": 0.4931778311729431,
      "learning_rate": 5e-05,
      "loss": 2.5423,
      "step": 5767
    },
    {
      "epoch": 0.23801830910070004,
      "grad_norm": 0.31069037318229675,
      "learning_rate": 5e-05,
      "loss": 1.9883,
      "step": 5768
    },
    {
      "epoch": 0.23815293484114164,
      "grad_norm": 0.3296533226966858,
      "learning_rate": 5e-05,
      "loss": 2.1586,
      "step": 5769
    },
    {
      "epoch": 0.2382875605815832,
      "grad_norm": 0.2623167932033539,
      "learning_rate": 5e-05,
      "loss": 1.7753,
      "step": 5770
    },
    {
      "epoch": 0.23842218632202478,
      "grad_norm": 0.3011840581893921,
      "learning_rate": 5e-05,
      "loss": 1.7876,
      "step": 5771
    },
    {
      "epoch": 0.23855681206246634,
      "grad_norm": 0.276873916387558,
      "learning_rate": 5e-05,
      "loss": 1.6023,
      "step": 5772
    },
    {
      "epoch": 0.2386914378029079,
      "grad_norm": 0.2817499041557312,
      "learning_rate": 5e-05,
      "loss": 1.9757,
      "step": 5773
    },
    {
      "epoch": 0.23882606354334948,
      "grad_norm": 0.49017226696014404,
      "learning_rate": 5e-05,
      "loss": 3.2711,
      "step": 5774
    },
    {
      "epoch": 0.23896068928379105,
      "grad_norm": 0.27268344163894653,
      "learning_rate": 5e-05,
      "loss": 1.7739,
      "step": 5775
    },
    {
      "epoch": 0.23909531502423265,
      "grad_norm": 0.3024522066116333,
      "learning_rate": 5e-05,
      "loss": 2.4418,
      "step": 5776
    },
    {
      "epoch": 0.23922994076467421,
      "grad_norm": 0.28720906376838684,
      "learning_rate": 5e-05,
      "loss": 1.626,
      "step": 5777
    },
    {
      "epoch": 0.23936456650511578,
      "grad_norm": 0.30684757232666016,
      "learning_rate": 5e-05,
      "loss": 1.7992,
      "step": 5778
    },
    {
      "epoch": 0.23949919224555735,
      "grad_norm": 0.28336918354034424,
      "learning_rate": 5e-05,
      "loss": 2.0538,
      "step": 5779
    },
    {
      "epoch": 0.23963381798599892,
      "grad_norm": 0.2939111590385437,
      "learning_rate": 5e-05,
      "loss": 1.9205,
      "step": 5780
    },
    {
      "epoch": 0.2397684437264405,
      "grad_norm": 0.28619709610939026,
      "learning_rate": 5e-05,
      "loss": 2.123,
      "step": 5781
    },
    {
      "epoch": 0.23990306946688206,
      "grad_norm": 0.26020821928977966,
      "learning_rate": 5e-05,
      "loss": 1.9176,
      "step": 5782
    },
    {
      "epoch": 0.24003769520732365,
      "grad_norm": 0.26254773139953613,
      "learning_rate": 5e-05,
      "loss": 1.8267,
      "step": 5783
    },
    {
      "epoch": 0.24017232094776522,
      "grad_norm": 0.27408355474472046,
      "learning_rate": 5e-05,
      "loss": 2.1672,
      "step": 5784
    },
    {
      "epoch": 0.2403069466882068,
      "grad_norm": 0.27339884638786316,
      "learning_rate": 5e-05,
      "loss": 1.7761,
      "step": 5785
    },
    {
      "epoch": 0.24044157242864836,
      "grad_norm": 0.292392760515213,
      "learning_rate": 5e-05,
      "loss": 1.8502,
      "step": 5786
    },
    {
      "epoch": 0.24057619816908993,
      "grad_norm": 0.3043556809425354,
      "learning_rate": 5e-05,
      "loss": 2.1671,
      "step": 5787
    },
    {
      "epoch": 0.2407108239095315,
      "grad_norm": 0.2577313482761383,
      "learning_rate": 5e-05,
      "loss": 1.7226,
      "step": 5788
    },
    {
      "epoch": 0.24084544964997306,
      "grad_norm": 0.2869822084903717,
      "learning_rate": 5e-05,
      "loss": 2.1729,
      "step": 5789
    },
    {
      "epoch": 0.24098007539041466,
      "grad_norm": 0.27909785509109497,
      "learning_rate": 5e-05,
      "loss": 2.0869,
      "step": 5790
    },
    {
      "epoch": 0.24111470113085623,
      "grad_norm": 0.33627280592918396,
      "learning_rate": 5e-05,
      "loss": 2.3474,
      "step": 5791
    },
    {
      "epoch": 0.2412493268712978,
      "grad_norm": 0.2685278058052063,
      "learning_rate": 5e-05,
      "loss": 1.9425,
      "step": 5792
    },
    {
      "epoch": 0.24138395261173937,
      "grad_norm": 0.2638765275478363,
      "learning_rate": 5e-05,
      "loss": 1.9544,
      "step": 5793
    },
    {
      "epoch": 0.24151857835218093,
      "grad_norm": 0.2793485224246979,
      "learning_rate": 5e-05,
      "loss": 2.0278,
      "step": 5794
    },
    {
      "epoch": 0.2416532040926225,
      "grad_norm": 0.2734418511390686,
      "learning_rate": 5e-05,
      "loss": 2.0474,
      "step": 5795
    },
    {
      "epoch": 0.24178782983306407,
      "grad_norm": 0.27634403109550476,
      "learning_rate": 5e-05,
      "loss": 1.9526,
      "step": 5796
    },
    {
      "epoch": 0.24192245557350567,
      "grad_norm": 0.27960139513015747,
      "learning_rate": 5e-05,
      "loss": 1.8088,
      "step": 5797
    },
    {
      "epoch": 0.24205708131394724,
      "grad_norm": 0.25317034125328064,
      "learning_rate": 5e-05,
      "loss": 1.6957,
      "step": 5798
    },
    {
      "epoch": 0.2421917070543888,
      "grad_norm": 0.5084164142608643,
      "learning_rate": 5e-05,
      "loss": 2.9748,
      "step": 5799
    },
    {
      "epoch": 0.24232633279483037,
      "grad_norm": 0.3273201882839203,
      "learning_rate": 5e-05,
      "loss": 2.3424,
      "step": 5800
    },
    {
      "epoch": 0.24246095853527194,
      "grad_norm": 0.284949392080307,
      "learning_rate": 5e-05,
      "loss": 1.8725,
      "step": 5801
    },
    {
      "epoch": 0.2425955842757135,
      "grad_norm": 0.24638493359088898,
      "learning_rate": 5e-05,
      "loss": 1.8827,
      "step": 5802
    },
    {
      "epoch": 0.24273021001615508,
      "grad_norm": 0.2842737138271332,
      "learning_rate": 5e-05,
      "loss": 2.2978,
      "step": 5803
    },
    {
      "epoch": 0.24286483575659665,
      "grad_norm": 0.3638325035572052,
      "learning_rate": 5e-05,
      "loss": 2.1994,
      "step": 5804
    },
    {
      "epoch": 0.24299946149703824,
      "grad_norm": 0.2950013279914856,
      "learning_rate": 5e-05,
      "loss": 2.0234,
      "step": 5805
    },
    {
      "epoch": 0.2431340872374798,
      "grad_norm": 0.28879138827323914,
      "learning_rate": 5e-05,
      "loss": 2.0589,
      "step": 5806
    },
    {
      "epoch": 0.24326871297792138,
      "grad_norm": 0.2738456726074219,
      "learning_rate": 5e-05,
      "loss": 1.8106,
      "step": 5807
    },
    {
      "epoch": 0.24340333871836295,
      "grad_norm": 0.2824282944202423,
      "learning_rate": 5e-05,
      "loss": 1.8838,
      "step": 5808
    },
    {
      "epoch": 0.24353796445880452,
      "grad_norm": 0.269208699464798,
      "learning_rate": 5e-05,
      "loss": 1.7851,
      "step": 5809
    },
    {
      "epoch": 0.2436725901992461,
      "grad_norm": 0.2905478775501251,
      "learning_rate": 5e-05,
      "loss": 2.3963,
      "step": 5810
    },
    {
      "epoch": 0.24380721593968765,
      "grad_norm": 0.25783589482307434,
      "learning_rate": 5e-05,
      "loss": 2.1053,
      "step": 5811
    },
    {
      "epoch": 0.24394184168012925,
      "grad_norm": 0.2691603899002075,
      "learning_rate": 5e-05,
      "loss": 1.8813,
      "step": 5812
    },
    {
      "epoch": 0.24407646742057082,
      "grad_norm": 0.2667047679424286,
      "learning_rate": 5e-05,
      "loss": 2.0517,
      "step": 5813
    },
    {
      "epoch": 0.2442110931610124,
      "grad_norm": 0.28180992603302,
      "learning_rate": 5e-05,
      "loss": 2.0539,
      "step": 5814
    },
    {
      "epoch": 0.24434571890145396,
      "grad_norm": 0.25996133685112,
      "learning_rate": 5e-05,
      "loss": 1.7925,
      "step": 5815
    },
    {
      "epoch": 0.24448034464189553,
      "grad_norm": 0.2991273105144501,
      "learning_rate": 5e-05,
      "loss": 2.0145,
      "step": 5816
    },
    {
      "epoch": 0.2446149703823371,
      "grad_norm": 0.2844253480434418,
      "learning_rate": 5e-05,
      "loss": 2.3729,
      "step": 5817
    },
    {
      "epoch": 0.24474959612277866,
      "grad_norm": 0.28541380167007446,
      "learning_rate": 5e-05,
      "loss": 1.9498,
      "step": 5818
    },
    {
      "epoch": 0.24488422186322026,
      "grad_norm": 0.29589563608169556,
      "learning_rate": 5e-05,
      "loss": 1.8251,
      "step": 5819
    },
    {
      "epoch": 0.24501884760366183,
      "grad_norm": 0.2781989872455597,
      "learning_rate": 5e-05,
      "loss": 1.7681,
      "step": 5820
    },
    {
      "epoch": 0.2451534733441034,
      "grad_norm": 0.28280356526374817,
      "learning_rate": 5e-05,
      "loss": 2.0199,
      "step": 5821
    },
    {
      "epoch": 0.24528809908454496,
      "grad_norm": 0.31772422790527344,
      "learning_rate": 5e-05,
      "loss": 2.6064,
      "step": 5822
    },
    {
      "epoch": 0.24542272482498653,
      "grad_norm": 0.24886585772037506,
      "learning_rate": 5e-05,
      "loss": 1.9571,
      "step": 5823
    },
    {
      "epoch": 0.2455573505654281,
      "grad_norm": 0.2691264748573303,
      "learning_rate": 5e-05,
      "loss": 1.682,
      "step": 5824
    },
    {
      "epoch": 0.24569197630586967,
      "grad_norm": 0.2699671983718872,
      "learning_rate": 5e-05,
      "loss": 2.2445,
      "step": 5825
    },
    {
      "epoch": 0.24582660204631127,
      "grad_norm": 0.262711763381958,
      "learning_rate": 5e-05,
      "loss": 1.65,
      "step": 5826
    },
    {
      "epoch": 0.24596122778675283,
      "grad_norm": 0.27765023708343506,
      "learning_rate": 5e-05,
      "loss": 2.0077,
      "step": 5827
    },
    {
      "epoch": 0.2460958535271944,
      "grad_norm": 0.3814336955547333,
      "learning_rate": 5e-05,
      "loss": 3.4484,
      "step": 5828
    },
    {
      "epoch": 0.24623047926763597,
      "grad_norm": 0.36762964725494385,
      "learning_rate": 5e-05,
      "loss": 2.6985,
      "step": 5829
    },
    {
      "epoch": 0.24636510500807754,
      "grad_norm": 0.2815382480621338,
      "learning_rate": 5e-05,
      "loss": 2.0185,
      "step": 5830
    },
    {
      "epoch": 0.2464997307485191,
      "grad_norm": 0.25396254658699036,
      "learning_rate": 5e-05,
      "loss": 1.9371,
      "step": 5831
    },
    {
      "epoch": 0.24663435648896068,
      "grad_norm": 0.30266091227531433,
      "learning_rate": 5e-05,
      "loss": 1.8781,
      "step": 5832
    },
    {
      "epoch": 0.24676898222940227,
      "grad_norm": 0.2533411979675293,
      "learning_rate": 5e-05,
      "loss": 1.8015,
      "step": 5833
    },
    {
      "epoch": 0.24690360796984384,
      "grad_norm": 0.257501482963562,
      "learning_rate": 5e-05,
      "loss": 1.9053,
      "step": 5834
    },
    {
      "epoch": 0.2470382337102854,
      "grad_norm": 0.26966872811317444,
      "learning_rate": 5e-05,
      "loss": 1.7351,
      "step": 5835
    },
    {
      "epoch": 0.24717285945072698,
      "grad_norm": 0.26467078924179077,
      "learning_rate": 5e-05,
      "loss": 1.9828,
      "step": 5836
    },
    {
      "epoch": 0.24730748519116855,
      "grad_norm": 0.2993048429489136,
      "learning_rate": 5e-05,
      "loss": 2.2464,
      "step": 5837
    },
    {
      "epoch": 0.24744211093161012,
      "grad_norm": 0.2483365535736084,
      "learning_rate": 5e-05,
      "loss": 1.6013,
      "step": 5838
    },
    {
      "epoch": 0.24757673667205168,
      "grad_norm": 0.2912638783454895,
      "learning_rate": 5e-05,
      "loss": 1.9515,
      "step": 5839
    },
    {
      "epoch": 0.24771136241249328,
      "grad_norm": 0.2654483914375305,
      "learning_rate": 5e-05,
      "loss": 1.7423,
      "step": 5840
    },
    {
      "epoch": 0.24784598815293485,
      "grad_norm": 0.2876904606819153,
      "learning_rate": 5e-05,
      "loss": 2.0459,
      "step": 5841
    },
    {
      "epoch": 0.24798061389337642,
      "grad_norm": 0.3112180233001709,
      "learning_rate": 5e-05,
      "loss": 2.2651,
      "step": 5842
    },
    {
      "epoch": 0.24811523963381799,
      "grad_norm": 0.2594304084777832,
      "learning_rate": 5e-05,
      "loss": 1.9073,
      "step": 5843
    },
    {
      "epoch": 0.24824986537425955,
      "grad_norm": 0.25644469261169434,
      "learning_rate": 5e-05,
      "loss": 1.9983,
      "step": 5844
    },
    {
      "epoch": 0.24838449111470112,
      "grad_norm": 0.2543151080608368,
      "learning_rate": 5e-05,
      "loss": 1.5714,
      "step": 5845
    },
    {
      "epoch": 0.2485191168551427,
      "grad_norm": 0.299007773399353,
      "learning_rate": 5e-05,
      "loss": 2.4659,
      "step": 5846
    },
    {
      "epoch": 0.2486537425955843,
      "grad_norm": 0.2791653871536255,
      "learning_rate": 5e-05,
      "loss": 2.147,
      "step": 5847
    },
    {
      "epoch": 0.24878836833602586,
      "grad_norm": 0.30487820506095886,
      "learning_rate": 5e-05,
      "loss": 2.0935,
      "step": 5848
    },
    {
      "epoch": 0.24892299407646742,
      "grad_norm": 0.2449905425310135,
      "learning_rate": 5e-05,
      "loss": 1.827,
      "step": 5849
    },
    {
      "epoch": 0.249057619816909,
      "grad_norm": 0.25186002254486084,
      "learning_rate": 5e-05,
      "loss": 1.8477,
      "step": 5850
    },
    {
      "epoch": 0.24919224555735056,
      "grad_norm": 0.3063771426677704,
      "learning_rate": 5e-05,
      "loss": 2.2422,
      "step": 5851
    },
    {
      "epoch": 0.24932687129779213,
      "grad_norm": 0.24547675251960754,
      "learning_rate": 5e-05,
      "loss": 1.7862,
      "step": 5852
    },
    {
      "epoch": 0.2494614970382337,
      "grad_norm": 0.3272121846675873,
      "learning_rate": 5e-05,
      "loss": 2.369,
      "step": 5853
    },
    {
      "epoch": 0.2495961227786753,
      "grad_norm": 0.31496548652648926,
      "learning_rate": 5e-05,
      "loss": 2.4263,
      "step": 5854
    },
    {
      "epoch": 0.24973074851911686,
      "grad_norm": 0.26713627576828003,
      "learning_rate": 5e-05,
      "loss": 1.9161,
      "step": 5855
    },
    {
      "epoch": 0.24986537425955843,
      "grad_norm": 0.2569374442100525,
      "learning_rate": 5e-05,
      "loss": 1.9846,
      "step": 5856
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.2792648375034332,
      "learning_rate": 5e-05,
      "loss": 2.2543,
      "step": 5857
    },
    {
      "epoch": 0.2501346257404416,
      "grad_norm": 0.2809790372848511,
      "learning_rate": 5e-05,
      "loss": 2.191,
      "step": 5858
    },
    {
      "epoch": 0.25026925148088314,
      "grad_norm": 0.282937616109848,
      "learning_rate": 5e-05,
      "loss": 2.3251,
      "step": 5859
    },
    {
      "epoch": 0.25040387722132473,
      "grad_norm": 0.24891412258148193,
      "learning_rate": 5e-05,
      "loss": 1.9796,
      "step": 5860
    },
    {
      "epoch": 0.2505385029617663,
      "grad_norm": 0.57352215051651,
      "learning_rate": 5e-05,
      "loss": 3.2579,
      "step": 5861
    },
    {
      "epoch": 0.25067312870220787,
      "grad_norm": 0.32090285420417786,
      "learning_rate": 5e-05,
      "loss": 2.1487,
      "step": 5862
    },
    {
      "epoch": 0.2508077544426494,
      "grad_norm": 0.2725013196468353,
      "learning_rate": 5e-05,
      "loss": 1.9527,
      "step": 5863
    },
    {
      "epoch": 0.250942380183091,
      "grad_norm": 0.25251504778862,
      "learning_rate": 5e-05,
      "loss": 1.8026,
      "step": 5864
    },
    {
      "epoch": 0.2510770059235326,
      "grad_norm": 0.27526915073394775,
      "learning_rate": 5e-05,
      "loss": 2.3038,
      "step": 5865
    },
    {
      "epoch": 0.25121163166397414,
      "grad_norm": 0.2691494822502136,
      "learning_rate": 5e-05,
      "loss": 1.6073,
      "step": 5866
    },
    {
      "epoch": 0.25134625740441574,
      "grad_norm": 0.2596524655818939,
      "learning_rate": 5e-05,
      "loss": 1.8585,
      "step": 5867
    },
    {
      "epoch": 0.2514808831448573,
      "grad_norm": 0.2688451111316681,
      "learning_rate": 5e-05,
      "loss": 1.7185,
      "step": 5868
    },
    {
      "epoch": 0.2516155088852989,
      "grad_norm": 0.2526371479034424,
      "learning_rate": 5e-05,
      "loss": 1.703,
      "step": 5869
    },
    {
      "epoch": 0.2517501346257404,
      "grad_norm": 0.26056724786758423,
      "learning_rate": 5e-05,
      "loss": 1.6925,
      "step": 5870
    },
    {
      "epoch": 0.251884760366182,
      "grad_norm": 0.27361834049224854,
      "learning_rate": 5e-05,
      "loss": 1.8575,
      "step": 5871
    },
    {
      "epoch": 0.2520193861066236,
      "grad_norm": 0.26314038038253784,
      "learning_rate": 5e-05,
      "loss": 1.7545,
      "step": 5872
    },
    {
      "epoch": 0.25215401184706515,
      "grad_norm": 0.27299484610557556,
      "learning_rate": 5e-05,
      "loss": 1.5927,
      "step": 5873
    },
    {
      "epoch": 0.25228863758750675,
      "grad_norm": 0.29447147250175476,
      "learning_rate": 5e-05,
      "loss": 2.3577,
      "step": 5874
    },
    {
      "epoch": 0.2524232633279483,
      "grad_norm": 0.2818422317504883,
      "learning_rate": 5e-05,
      "loss": 2.3732,
      "step": 5875
    },
    {
      "epoch": 0.2525578890683899,
      "grad_norm": 0.2651473879814148,
      "learning_rate": 5e-05,
      "loss": 1.9133,
      "step": 5876
    },
    {
      "epoch": 0.2526925148088314,
      "grad_norm": 0.28934431076049805,
      "learning_rate": 5e-05,
      "loss": 2.1336,
      "step": 5877
    },
    {
      "epoch": 0.252827140549273,
      "grad_norm": 0.2970244586467743,
      "learning_rate": 5e-05,
      "loss": 2.5214,
      "step": 5878
    },
    {
      "epoch": 0.2529617662897146,
      "grad_norm": 0.2550707161426544,
      "learning_rate": 5e-05,
      "loss": 1.677,
      "step": 5879
    },
    {
      "epoch": 0.25309639203015616,
      "grad_norm": 0.34339314699172974,
      "learning_rate": 5e-05,
      "loss": 2.3145,
      "step": 5880
    },
    {
      "epoch": 0.25323101777059775,
      "grad_norm": 0.27910569310188293,
      "learning_rate": 5e-05,
      "loss": 1.7351,
      "step": 5881
    },
    {
      "epoch": 0.2533656435110393,
      "grad_norm": 0.29507899284362793,
      "learning_rate": 5e-05,
      "loss": 2.4619,
      "step": 5882
    },
    {
      "epoch": 0.2535002692514809,
      "grad_norm": 0.31322893500328064,
      "learning_rate": 5e-05,
      "loss": 2.3694,
      "step": 5883
    },
    {
      "epoch": 0.25363489499192243,
      "grad_norm": 0.26007458567619324,
      "learning_rate": 5e-05,
      "loss": 2.0137,
      "step": 5884
    },
    {
      "epoch": 0.25376952073236403,
      "grad_norm": 0.2661549746990204,
      "learning_rate": 5e-05,
      "loss": 1.9447,
      "step": 5885
    },
    {
      "epoch": 0.2539041464728056,
      "grad_norm": 0.2792969346046448,
      "learning_rate": 5e-05,
      "loss": 2.2369,
      "step": 5886
    },
    {
      "epoch": 0.25403877221324717,
      "grad_norm": 0.25567227602005005,
      "learning_rate": 5e-05,
      "loss": 1.7452,
      "step": 5887
    },
    {
      "epoch": 0.25417339795368876,
      "grad_norm": 0.24844138324260712,
      "learning_rate": 5e-05,
      "loss": 1.7724,
      "step": 5888
    },
    {
      "epoch": 0.2543080236941303,
      "grad_norm": 0.39193421602249146,
      "learning_rate": 5e-05,
      "loss": 1.8402,
      "step": 5889
    },
    {
      "epoch": 0.2544426494345719,
      "grad_norm": 0.32190707325935364,
      "learning_rate": 5e-05,
      "loss": 2.6225,
      "step": 5890
    },
    {
      "epoch": 0.25457727517501344,
      "grad_norm": 0.3174282908439636,
      "learning_rate": 5e-05,
      "loss": 2.3392,
      "step": 5891
    },
    {
      "epoch": 0.25471190091545504,
      "grad_norm": 0.3786454498767853,
      "learning_rate": 5e-05,
      "loss": 2.6921,
      "step": 5892
    },
    {
      "epoch": 0.25484652665589663,
      "grad_norm": 0.27745434641838074,
      "learning_rate": 5e-05,
      "loss": 1.8972,
      "step": 5893
    },
    {
      "epoch": 0.2549811523963382,
      "grad_norm": 0.27020949125289917,
      "learning_rate": 5e-05,
      "loss": 1.7895,
      "step": 5894
    },
    {
      "epoch": 0.25511577813677977,
      "grad_norm": 0.2746760845184326,
      "learning_rate": 5e-05,
      "loss": 1.8766,
      "step": 5895
    },
    {
      "epoch": 0.2552504038772213,
      "grad_norm": 0.3290032148361206,
      "learning_rate": 5e-05,
      "loss": 2.4427,
      "step": 5896
    },
    {
      "epoch": 0.2553850296176629,
      "grad_norm": 0.2999909818172455,
      "learning_rate": 5e-05,
      "loss": 2.3714,
      "step": 5897
    },
    {
      "epoch": 0.25551965535810445,
      "grad_norm": 0.33216479420661926,
      "learning_rate": 5e-05,
      "loss": 2.5637,
      "step": 5898
    },
    {
      "epoch": 0.25565428109854604,
      "grad_norm": 0.2842811346054077,
      "learning_rate": 5e-05,
      "loss": 1.9266,
      "step": 5899
    },
    {
      "epoch": 0.25578890683898764,
      "grad_norm": 0.27236708998680115,
      "learning_rate": 5e-05,
      "loss": 2.1448,
      "step": 5900
    },
    {
      "epoch": 0.2559235325794292,
      "grad_norm": 0.25802531838417053,
      "learning_rate": 5e-05,
      "loss": 1.6713,
      "step": 5901
    },
    {
      "epoch": 0.2560581583198708,
      "grad_norm": 0.27030083537101746,
      "learning_rate": 5e-05,
      "loss": 1.8331,
      "step": 5902
    },
    {
      "epoch": 0.2561927840603123,
      "grad_norm": 0.26697590947151184,
      "learning_rate": 5e-05,
      "loss": 2.0543,
      "step": 5903
    },
    {
      "epoch": 0.2563274098007539,
      "grad_norm": 0.2716604471206665,
      "learning_rate": 5e-05,
      "loss": 1.9972,
      "step": 5904
    },
    {
      "epoch": 0.25646203554119545,
      "grad_norm": 0.26606622338294983,
      "learning_rate": 5e-05,
      "loss": 1.9263,
      "step": 5905
    },
    {
      "epoch": 0.25659666128163705,
      "grad_norm": 0.26533815264701843,
      "learning_rate": 5e-05,
      "loss": 1.7222,
      "step": 5906
    },
    {
      "epoch": 0.25673128702207865,
      "grad_norm": 0.27970045804977417,
      "learning_rate": 5e-05,
      "loss": 2.1856,
      "step": 5907
    },
    {
      "epoch": 0.2568659127625202,
      "grad_norm": 0.2459457963705063,
      "learning_rate": 5e-05,
      "loss": 1.7592,
      "step": 5908
    },
    {
      "epoch": 0.2570005385029618,
      "grad_norm": 0.36090636253356934,
      "learning_rate": 5e-05,
      "loss": 3.3636,
      "step": 5909
    },
    {
      "epoch": 0.2571351642434033,
      "grad_norm": 0.27655109763145447,
      "learning_rate": 5e-05,
      "loss": 2.0489,
      "step": 5910
    },
    {
      "epoch": 0.2572697899838449,
      "grad_norm": 0.2576806843280792,
      "learning_rate": 5e-05,
      "loss": 1.7879,
      "step": 5911
    },
    {
      "epoch": 0.25740441572428646,
      "grad_norm": 0.32793155312538147,
      "learning_rate": 5e-05,
      "loss": 2.7418,
      "step": 5912
    },
    {
      "epoch": 0.25753904146472806,
      "grad_norm": 0.2911675274372101,
      "learning_rate": 5e-05,
      "loss": 1.644,
      "step": 5913
    },
    {
      "epoch": 0.25767366720516965,
      "grad_norm": 0.3028278648853302,
      "learning_rate": 5e-05,
      "loss": 2.5136,
      "step": 5914
    },
    {
      "epoch": 0.2578082929456112,
      "grad_norm": 0.2706319987773895,
      "learning_rate": 5e-05,
      "loss": 1.9069,
      "step": 5915
    },
    {
      "epoch": 0.2579429186860528,
      "grad_norm": 0.27384132146835327,
      "learning_rate": 5e-05,
      "loss": 2.1455,
      "step": 5916
    },
    {
      "epoch": 0.25807754442649433,
      "grad_norm": 0.2546136677265167,
      "learning_rate": 5e-05,
      "loss": 2.1297,
      "step": 5917
    },
    {
      "epoch": 0.25821217016693593,
      "grad_norm": 0.31386038661003113,
      "learning_rate": 5e-05,
      "loss": 2.3881,
      "step": 5918
    },
    {
      "epoch": 0.25834679590737747,
      "grad_norm": 0.32693833112716675,
      "learning_rate": 5e-05,
      "loss": 2.4834,
      "step": 5919
    },
    {
      "epoch": 0.25848142164781907,
      "grad_norm": 0.33291780948638916,
      "learning_rate": 5e-05,
      "loss": 2.4211,
      "step": 5920
    },
    {
      "epoch": 0.25861604738826066,
      "grad_norm": 0.3666796386241913,
      "learning_rate": 5e-05,
      "loss": 2.2071,
      "step": 5921
    },
    {
      "epoch": 0.2587506731287022,
      "grad_norm": 0.27232155203819275,
      "learning_rate": 5e-05,
      "loss": 1.6871,
      "step": 5922
    },
    {
      "epoch": 0.2588852988691438,
      "grad_norm": 0.25378620624542236,
      "learning_rate": 5e-05,
      "loss": 1.7672,
      "step": 5923
    },
    {
      "epoch": 0.25901992460958534,
      "grad_norm": 0.2685222923755646,
      "learning_rate": 5e-05,
      "loss": 1.6115,
      "step": 5924
    },
    {
      "epoch": 0.25915455035002694,
      "grad_norm": 0.2978408634662628,
      "learning_rate": 5e-05,
      "loss": 1.9171,
      "step": 5925
    },
    {
      "epoch": 0.2592891760904685,
      "grad_norm": 0.2823755443096161,
      "learning_rate": 5e-05,
      "loss": 1.7906,
      "step": 5926
    },
    {
      "epoch": 0.2594238018309101,
      "grad_norm": 0.2868070900440216,
      "learning_rate": 5e-05,
      "loss": 1.9582,
      "step": 5927
    },
    {
      "epoch": 0.25955842757135167,
      "grad_norm": 0.2655281722545624,
      "learning_rate": 5e-05,
      "loss": 1.9447,
      "step": 5928
    },
    {
      "epoch": 0.2596930533117932,
      "grad_norm": 0.24871137738227844,
      "learning_rate": 5e-05,
      "loss": 1.8043,
      "step": 5929
    },
    {
      "epoch": 0.2598276790522348,
      "grad_norm": 0.28598421812057495,
      "learning_rate": 5e-05,
      "loss": 1.9904,
      "step": 5930
    },
    {
      "epoch": 0.25996230479267635,
      "grad_norm": 0.2629455029964447,
      "learning_rate": 5e-05,
      "loss": 1.7719,
      "step": 5931
    },
    {
      "epoch": 0.26009693053311794,
      "grad_norm": 0.29337605834007263,
      "learning_rate": 5e-05,
      "loss": 2.0124,
      "step": 5932
    },
    {
      "epoch": 0.2602315562735595,
      "grad_norm": 0.2933712303638458,
      "learning_rate": 5e-05,
      "loss": 2.2932,
      "step": 5933
    },
    {
      "epoch": 0.2603661820140011,
      "grad_norm": 0.26403653621673584,
      "learning_rate": 5e-05,
      "loss": 1.7362,
      "step": 5934
    },
    {
      "epoch": 0.2605008077544427,
      "grad_norm": 0.2619894742965698,
      "learning_rate": 5e-05,
      "loss": 1.8902,
      "step": 5935
    },
    {
      "epoch": 0.2606354334948842,
      "grad_norm": 0.27199044823646545,
      "learning_rate": 5e-05,
      "loss": 1.9159,
      "step": 5936
    },
    {
      "epoch": 0.2607700592353258,
      "grad_norm": 0.28086692094802856,
      "learning_rate": 5e-05,
      "loss": 2.0189,
      "step": 5937
    },
    {
      "epoch": 0.26090468497576735,
      "grad_norm": 0.26897087693214417,
      "learning_rate": 5e-05,
      "loss": 1.8292,
      "step": 5938
    },
    {
      "epoch": 0.26103931071620895,
      "grad_norm": 0.33505988121032715,
      "learning_rate": 5e-05,
      "loss": 2.4046,
      "step": 5939
    },
    {
      "epoch": 0.2611739364566505,
      "grad_norm": 0.2908441424369812,
      "learning_rate": 5e-05,
      "loss": 2.0323,
      "step": 5940
    },
    {
      "epoch": 0.2613085621970921,
      "grad_norm": 0.2879623770713806,
      "learning_rate": 5e-05,
      "loss": 2.337,
      "step": 5941
    },
    {
      "epoch": 0.2614431879375337,
      "grad_norm": 0.29654377698898315,
      "learning_rate": 5e-05,
      "loss": 2.1074,
      "step": 5942
    },
    {
      "epoch": 0.2615778136779752,
      "grad_norm": 0.27691173553466797,
      "learning_rate": 5e-05,
      "loss": 1.9606,
      "step": 5943
    },
    {
      "epoch": 0.2617124394184168,
      "grad_norm": 0.3071170449256897,
      "learning_rate": 5e-05,
      "loss": 2.3519,
      "step": 5944
    },
    {
      "epoch": 0.26184706515885836,
      "grad_norm": 0.2695372700691223,
      "learning_rate": 5e-05,
      "loss": 2.0563,
      "step": 5945
    },
    {
      "epoch": 0.26198169089929996,
      "grad_norm": 0.26553580164909363,
      "learning_rate": 5e-05,
      "loss": 2.6796,
      "step": 5946
    },
    {
      "epoch": 0.2621163166397415,
      "grad_norm": 0.33565691113471985,
      "learning_rate": 5e-05,
      "loss": 2.87,
      "step": 5947
    },
    {
      "epoch": 0.2622509423801831,
      "grad_norm": 0.26922306418418884,
      "learning_rate": 5e-05,
      "loss": 1.9709,
      "step": 5948
    },
    {
      "epoch": 0.2623855681206247,
      "grad_norm": 0.3228168785572052,
      "learning_rate": 5e-05,
      "loss": 2.3164,
      "step": 5949
    },
    {
      "epoch": 0.26252019386106623,
      "grad_norm": 0.24176980555057526,
      "learning_rate": 5e-05,
      "loss": 1.5638,
      "step": 5950
    },
    {
      "epoch": 0.2626548196015078,
      "grad_norm": 0.25589391589164734,
      "learning_rate": 5e-05,
      "loss": 1.708,
      "step": 5951
    },
    {
      "epoch": 0.26278944534194937,
      "grad_norm": 0.2921333312988281,
      "learning_rate": 5e-05,
      "loss": 2.4131,
      "step": 5952
    },
    {
      "epoch": 0.26292407108239096,
      "grad_norm": 0.296159565448761,
      "learning_rate": 5e-05,
      "loss": 2.4692,
      "step": 5953
    },
    {
      "epoch": 0.2630586968228325,
      "grad_norm": 0.2653159499168396,
      "learning_rate": 5e-05,
      "loss": 1.827,
      "step": 5954
    },
    {
      "epoch": 0.2631933225632741,
      "grad_norm": 0.29430726170539856,
      "learning_rate": 5e-05,
      "loss": 1.7346,
      "step": 5955
    },
    {
      "epoch": 0.2633279483037157,
      "grad_norm": 0.2519056499004364,
      "learning_rate": 5e-05,
      "loss": 1.655,
      "step": 5956
    },
    {
      "epoch": 0.26346257404415724,
      "grad_norm": 0.2711557149887085,
      "learning_rate": 5e-05,
      "loss": 1.6529,
      "step": 5957
    },
    {
      "epoch": 0.26359719978459883,
      "grad_norm": 0.27878496050834656,
      "learning_rate": 5e-05,
      "loss": 2.248,
      "step": 5958
    },
    {
      "epoch": 0.2637318255250404,
      "grad_norm": 0.3619096279144287,
      "learning_rate": 5e-05,
      "loss": 2.4236,
      "step": 5959
    },
    {
      "epoch": 0.26386645126548197,
      "grad_norm": 0.2835417091846466,
      "learning_rate": 5e-05,
      "loss": 1.9986,
      "step": 5960
    },
    {
      "epoch": 0.2640010770059235,
      "grad_norm": 0.27013298869132996,
      "learning_rate": 5e-05,
      "loss": 2.2231,
      "step": 5961
    },
    {
      "epoch": 0.2641357027463651,
      "grad_norm": 0.2768659293651581,
      "learning_rate": 5e-05,
      "loss": 1.7449,
      "step": 5962
    },
    {
      "epoch": 0.2642703284868067,
      "grad_norm": 0.2788156270980835,
      "learning_rate": 5e-05,
      "loss": 1.8776,
      "step": 5963
    },
    {
      "epoch": 0.26440495422724825,
      "grad_norm": 0.3230523467063904,
      "learning_rate": 5e-05,
      "loss": 1.9854,
      "step": 5964
    },
    {
      "epoch": 0.26453957996768984,
      "grad_norm": 0.2702045440673828,
      "learning_rate": 5e-05,
      "loss": 2.1772,
      "step": 5965
    },
    {
      "epoch": 0.2646742057081314,
      "grad_norm": 0.34731048345565796,
      "learning_rate": 5e-05,
      "loss": 2.573,
      "step": 5966
    },
    {
      "epoch": 0.264808831448573,
      "grad_norm": 0.2705070376396179,
      "learning_rate": 5e-05,
      "loss": 1.7918,
      "step": 5967
    },
    {
      "epoch": 0.2649434571890145,
      "grad_norm": 0.3474595546722412,
      "learning_rate": 5e-05,
      "loss": 2.3672,
      "step": 5968
    },
    {
      "epoch": 0.2650780829294561,
      "grad_norm": 0.2783363163471222,
      "learning_rate": 5e-05,
      "loss": 1.7414,
      "step": 5969
    },
    {
      "epoch": 0.2652127086698977,
      "grad_norm": 0.2603968679904938,
      "learning_rate": 5e-05,
      "loss": 1.6819,
      "step": 5970
    },
    {
      "epoch": 0.26534733441033925,
      "grad_norm": 0.3712325692176819,
      "learning_rate": 5e-05,
      "loss": 2.4839,
      "step": 5971
    },
    {
      "epoch": 0.26548196015078085,
      "grad_norm": 0.28261056542396545,
      "learning_rate": 5e-05,
      "loss": 2.3734,
      "step": 5972
    },
    {
      "epoch": 0.2656165858912224,
      "grad_norm": 0.24410726130008698,
      "learning_rate": 5e-05,
      "loss": 1.4194,
      "step": 5973
    },
    {
      "epoch": 0.265751211631664,
      "grad_norm": 0.27671605348587036,
      "learning_rate": 5e-05,
      "loss": 2.1405,
      "step": 5974
    },
    {
      "epoch": 0.2658858373721055,
      "grad_norm": 0.33289095759391785,
      "learning_rate": 5e-05,
      "loss": 1.9482,
      "step": 5975
    },
    {
      "epoch": 0.2660204631125471,
      "grad_norm": 0.2963526248931885,
      "learning_rate": 5e-05,
      "loss": 1.8408,
      "step": 5976
    },
    {
      "epoch": 0.26615508885298866,
      "grad_norm": 0.2578485906124115,
      "learning_rate": 5e-05,
      "loss": 1.8765,
      "step": 5977
    },
    {
      "epoch": 0.26628971459343026,
      "grad_norm": 0.2693904936313629,
      "learning_rate": 5e-05,
      "loss": 1.625,
      "step": 5978
    },
    {
      "epoch": 0.26642434033387186,
      "grad_norm": 0.2780790328979492,
      "learning_rate": 5e-05,
      "loss": 1.7495,
      "step": 5979
    },
    {
      "epoch": 0.2665589660743134,
      "grad_norm": 0.2874884009361267,
      "learning_rate": 5e-05,
      "loss": 1.8746,
      "step": 5980
    },
    {
      "epoch": 0.266693591814755,
      "grad_norm": 0.2782406210899353,
      "learning_rate": 5e-05,
      "loss": 2.113,
      "step": 5981
    },
    {
      "epoch": 0.26682821755519653,
      "grad_norm": 0.2737731635570526,
      "learning_rate": 5e-05,
      "loss": 1.6438,
      "step": 5982
    },
    {
      "epoch": 0.26696284329563813,
      "grad_norm": 0.2820625901222229,
      "learning_rate": 5e-05,
      "loss": 2.6452,
      "step": 5983
    },
    {
      "epoch": 0.26709746903607967,
      "grad_norm": 0.3041728734970093,
      "learning_rate": 5e-05,
      "loss": 3.2003,
      "step": 5984
    },
    {
      "epoch": 0.26723209477652127,
      "grad_norm": 0.30288222432136536,
      "learning_rate": 5e-05,
      "loss": 2.0629,
      "step": 5985
    },
    {
      "epoch": 0.26736672051696286,
      "grad_norm": 0.294812947511673,
      "learning_rate": 5e-05,
      "loss": 2.0921,
      "step": 5986
    },
    {
      "epoch": 0.2675013462574044,
      "grad_norm": 0.29338642954826355,
      "learning_rate": 5e-05,
      "loss": 2.2115,
      "step": 5987
    },
    {
      "epoch": 0.267635971997846,
      "grad_norm": 0.3478423058986664,
      "learning_rate": 5e-05,
      "loss": 2.5533,
      "step": 5988
    },
    {
      "epoch": 0.26777059773828754,
      "grad_norm": 0.2824375331401825,
      "learning_rate": 5e-05,
      "loss": 1.9041,
      "step": 5989
    },
    {
      "epoch": 0.26790522347872914,
      "grad_norm": 0.3247803747653961,
      "learning_rate": 5e-05,
      "loss": 2.9479,
      "step": 5990
    },
    {
      "epoch": 0.2680398492191707,
      "grad_norm": 0.32758137583732605,
      "learning_rate": 5e-05,
      "loss": 2.132,
      "step": 5991
    },
    {
      "epoch": 0.2681744749596123,
      "grad_norm": 0.303519606590271,
      "learning_rate": 5e-05,
      "loss": 2.3058,
      "step": 5992
    },
    {
      "epoch": 0.26830910070005387,
      "grad_norm": 0.27053096890449524,
      "learning_rate": 5e-05,
      "loss": 1.8664,
      "step": 5993
    },
    {
      "epoch": 0.2684437264404954,
      "grad_norm": 0.2652091383934021,
      "learning_rate": 5e-05,
      "loss": 1.9546,
      "step": 5994
    },
    {
      "epoch": 0.268578352180937,
      "grad_norm": 0.24793551862239838,
      "learning_rate": 5e-05,
      "loss": 1.9686,
      "step": 5995
    },
    {
      "epoch": 0.26871297792137855,
      "grad_norm": 0.2733590602874756,
      "learning_rate": 5e-05,
      "loss": 2.1415,
      "step": 5996
    },
    {
      "epoch": 0.26884760366182014,
      "grad_norm": 0.2877490520477295,
      "learning_rate": 5e-05,
      "loss": 1.6527,
      "step": 5997
    },
    {
      "epoch": 0.2689822294022617,
      "grad_norm": 0.25845903158187866,
      "learning_rate": 5e-05,
      "loss": 2.0469,
      "step": 5998
    },
    {
      "epoch": 0.2691168551427033,
      "grad_norm": 0.3044699728488922,
      "learning_rate": 5e-05,
      "loss": 1.9496,
      "step": 5999
    },
    {
      "epoch": 0.2692514808831449,
      "grad_norm": 0.28490346670150757,
      "learning_rate": 5e-05,
      "loss": 2.6305,
      "step": 6000
    },
    {
      "epoch": 0.2693861066235864,
      "grad_norm": 0.24619737267494202,
      "learning_rate": 5e-05,
      "loss": 1.9407,
      "step": 6001
    },
    {
      "epoch": 0.269520732364028,
      "grad_norm": 0.2819029986858368,
      "learning_rate": 5e-05,
      "loss": 2.1231,
      "step": 6002
    },
    {
      "epoch": 0.26965535810446956,
      "grad_norm": 0.28214317560195923,
      "learning_rate": 5e-05,
      "loss": 1.9401,
      "step": 6003
    },
    {
      "epoch": 0.26978998384491115,
      "grad_norm": 0.26272010803222656,
      "learning_rate": 5e-05,
      "loss": 1.7666,
      "step": 6004
    },
    {
      "epoch": 0.2699246095853527,
      "grad_norm": 0.2887691855430603,
      "learning_rate": 5e-05,
      "loss": 1.9912,
      "step": 6005
    },
    {
      "epoch": 0.2700592353257943,
      "grad_norm": 0.26126235723495483,
      "learning_rate": 5e-05,
      "loss": 1.5986,
      "step": 6006
    },
    {
      "epoch": 0.2701938610662359,
      "grad_norm": 0.27230751514434814,
      "learning_rate": 5e-05,
      "loss": 1.9422,
      "step": 6007
    },
    {
      "epoch": 0.2703284868066774,
      "grad_norm": 0.345383882522583,
      "learning_rate": 5e-05,
      "loss": 2.9626,
      "step": 6008
    },
    {
      "epoch": 0.270463112547119,
      "grad_norm": 0.2908459007740021,
      "learning_rate": 5e-05,
      "loss": 2.0023,
      "step": 6009
    },
    {
      "epoch": 0.27059773828756056,
      "grad_norm": 0.2813422381877899,
      "learning_rate": 5e-05,
      "loss": 1.9645,
      "step": 6010
    },
    {
      "epoch": 0.27073236402800216,
      "grad_norm": 0.3211524784564972,
      "learning_rate": 5e-05,
      "loss": 2.1705,
      "step": 6011
    },
    {
      "epoch": 0.2708669897684437,
      "grad_norm": 0.26228293776512146,
      "learning_rate": 5e-05,
      "loss": 1.7768,
      "step": 6012
    },
    {
      "epoch": 0.2710016155088853,
      "grad_norm": 0.2888506054878235,
      "learning_rate": 5e-05,
      "loss": 1.901,
      "step": 6013
    },
    {
      "epoch": 0.2711362412493269,
      "grad_norm": 0.32639560103416443,
      "learning_rate": 5e-05,
      "loss": 3.1302,
      "step": 6014
    },
    {
      "epoch": 0.27127086698976843,
      "grad_norm": 0.30457326769828796,
      "learning_rate": 5e-05,
      "loss": 2.0274,
      "step": 6015
    },
    {
      "epoch": 0.27140549273021003,
      "grad_norm": 0.26454874873161316,
      "learning_rate": 5e-05,
      "loss": 1.9578,
      "step": 6016
    },
    {
      "epoch": 0.27154011847065157,
      "grad_norm": 0.26700153946876526,
      "learning_rate": 5e-05,
      "loss": 1.9773,
      "step": 6017
    },
    {
      "epoch": 0.27167474421109317,
      "grad_norm": 0.3666328489780426,
      "learning_rate": 5e-05,
      "loss": 3.3409,
      "step": 6018
    },
    {
      "epoch": 0.2718093699515347,
      "grad_norm": 0.26528075337409973,
      "learning_rate": 5e-05,
      "loss": 1.7492,
      "step": 6019
    },
    {
      "epoch": 0.2719439956919763,
      "grad_norm": 0.25589263439178467,
      "learning_rate": 5e-05,
      "loss": 1.7194,
      "step": 6020
    },
    {
      "epoch": 0.2720786214324179,
      "grad_norm": 0.28461557626724243,
      "learning_rate": 5e-05,
      "loss": 2.7111,
      "step": 6021
    },
    {
      "epoch": 0.27221324717285944,
      "grad_norm": 0.2701881229877472,
      "learning_rate": 5e-05,
      "loss": 1.9932,
      "step": 6022
    },
    {
      "epoch": 0.27234787291330104,
      "grad_norm": 0.2708801031112671,
      "learning_rate": 5e-05,
      "loss": 1.7849,
      "step": 6023
    },
    {
      "epoch": 0.2724824986537426,
      "grad_norm": 0.2710333466529846,
      "learning_rate": 5e-05,
      "loss": 1.8466,
      "step": 6024
    },
    {
      "epoch": 0.2726171243941842,
      "grad_norm": 0.2765549421310425,
      "learning_rate": 5e-05,
      "loss": 1.6885,
      "step": 6025
    },
    {
      "epoch": 0.2727517501346257,
      "grad_norm": 0.2908276915550232,
      "learning_rate": 5e-05,
      "loss": 2.263,
      "step": 6026
    },
    {
      "epoch": 0.2728863758750673,
      "grad_norm": 0.25036805868148804,
      "learning_rate": 5e-05,
      "loss": 1.8753,
      "step": 6027
    },
    {
      "epoch": 0.2730210016155089,
      "grad_norm": 0.28609699010849,
      "learning_rate": 5e-05,
      "loss": 1.7497,
      "step": 6028
    },
    {
      "epoch": 0.27315562735595045,
      "grad_norm": 0.2602198123931885,
      "learning_rate": 5e-05,
      "loss": 1.5576,
      "step": 6029
    },
    {
      "epoch": 0.27329025309639204,
      "grad_norm": 0.28040164709091187,
      "learning_rate": 5e-05,
      "loss": 2.0407,
      "step": 6030
    },
    {
      "epoch": 0.2734248788368336,
      "grad_norm": 0.355400949716568,
      "learning_rate": 5e-05,
      "loss": 2.4051,
      "step": 6031
    },
    {
      "epoch": 0.2735595045772752,
      "grad_norm": 0.31627556681632996,
      "learning_rate": 5e-05,
      "loss": 2.6547,
      "step": 6032
    },
    {
      "epoch": 0.2736941303177167,
      "grad_norm": 0.33198082447052,
      "learning_rate": 5e-05,
      "loss": 2.7169,
      "step": 6033
    },
    {
      "epoch": 0.2738287560581583,
      "grad_norm": 0.2858651280403137,
      "learning_rate": 5e-05,
      "loss": 1.8718,
      "step": 6034
    },
    {
      "epoch": 0.2739633817985999,
      "grad_norm": 0.2895522713661194,
      "learning_rate": 5e-05,
      "loss": 1.7719,
      "step": 6035
    },
    {
      "epoch": 0.27409800753904145,
      "grad_norm": 0.2821577787399292,
      "learning_rate": 5e-05,
      "loss": 2.6373,
      "step": 6036
    },
    {
      "epoch": 0.27423263327948305,
      "grad_norm": 0.3820992708206177,
      "learning_rate": 5e-05,
      "loss": 2.5527,
      "step": 6037
    },
    {
      "epoch": 0.2743672590199246,
      "grad_norm": 0.2750839293003082,
      "learning_rate": 5e-05,
      "loss": 2.1865,
      "step": 6038
    },
    {
      "epoch": 0.2745018847603662,
      "grad_norm": 0.2604910731315613,
      "learning_rate": 5e-05,
      "loss": 1.8858,
      "step": 6039
    },
    {
      "epoch": 0.27463651050080773,
      "grad_norm": 0.3029060959815979,
      "learning_rate": 5e-05,
      "loss": 2.0403,
      "step": 6040
    },
    {
      "epoch": 0.2747711362412493,
      "grad_norm": 0.26631155610084534,
      "learning_rate": 5e-05,
      "loss": 1.6049,
      "step": 6041
    },
    {
      "epoch": 0.2749057619816909,
      "grad_norm": 0.28353941440582275,
      "learning_rate": 5e-05,
      "loss": 1.9469,
      "step": 6042
    },
    {
      "epoch": 0.27504038772213246,
      "grad_norm": 0.3314673602581024,
      "learning_rate": 5e-05,
      "loss": 2.1576,
      "step": 6043
    },
    {
      "epoch": 0.27517501346257406,
      "grad_norm": 0.28411510586738586,
      "learning_rate": 5e-05,
      "loss": 2.1143,
      "step": 6044
    },
    {
      "epoch": 0.2753096392030156,
      "grad_norm": 0.3386315703392029,
      "learning_rate": 5e-05,
      "loss": 2.3466,
      "step": 6045
    },
    {
      "epoch": 0.2754442649434572,
      "grad_norm": 0.2584897577762604,
      "learning_rate": 5e-05,
      "loss": 2.0248,
      "step": 6046
    },
    {
      "epoch": 0.27557889068389874,
      "grad_norm": 0.27323126792907715,
      "learning_rate": 5e-05,
      "loss": 1.7964,
      "step": 6047
    },
    {
      "epoch": 0.27571351642434033,
      "grad_norm": 0.329658567905426,
      "learning_rate": 5e-05,
      "loss": 2.0633,
      "step": 6048
    },
    {
      "epoch": 0.27584814216478193,
      "grad_norm": 0.29324662685394287,
      "learning_rate": 5e-05,
      "loss": 1.599,
      "step": 6049
    },
    {
      "epoch": 0.27598276790522347,
      "grad_norm": 0.29360243678092957,
      "learning_rate": 5e-05,
      "loss": 2.2683,
      "step": 6050
    },
    {
      "epoch": 0.27611739364566507,
      "grad_norm": 0.2573834955692291,
      "learning_rate": 5e-05,
      "loss": 1.6603,
      "step": 6051
    },
    {
      "epoch": 0.2762520193861066,
      "grad_norm": 0.2613120973110199,
      "learning_rate": 5e-05,
      "loss": 1.8314,
      "step": 6052
    },
    {
      "epoch": 0.2763866451265482,
      "grad_norm": 0.2533910870552063,
      "learning_rate": 5e-05,
      "loss": 1.6341,
      "step": 6053
    },
    {
      "epoch": 0.27652127086698974,
      "grad_norm": 0.28568077087402344,
      "learning_rate": 5e-05,
      "loss": 2.2017,
      "step": 6054
    },
    {
      "epoch": 0.27665589660743134,
      "grad_norm": 0.27527979016304016,
      "learning_rate": 5e-05,
      "loss": 2.0606,
      "step": 6055
    },
    {
      "epoch": 0.27679052234787294,
      "grad_norm": 0.2699684202671051,
      "learning_rate": 5e-05,
      "loss": 2.245,
      "step": 6056
    },
    {
      "epoch": 0.2769251480883145,
      "grad_norm": 0.3180939257144928,
      "learning_rate": 5e-05,
      "loss": 2.7894,
      "step": 6057
    },
    {
      "epoch": 0.2770597738287561,
      "grad_norm": 0.2659848630428314,
      "learning_rate": 5e-05,
      "loss": 1.8722,
      "step": 6058
    },
    {
      "epoch": 0.2771943995691976,
      "grad_norm": 0.27812063694000244,
      "learning_rate": 5e-05,
      "loss": 2.1642,
      "step": 6059
    },
    {
      "epoch": 0.2773290253096392,
      "grad_norm": 0.278346985578537,
      "learning_rate": 5e-05,
      "loss": 1.9882,
      "step": 6060
    },
    {
      "epoch": 0.27746365105008075,
      "grad_norm": 0.264852374792099,
      "learning_rate": 5e-05,
      "loss": 2.06,
      "step": 6061
    },
    {
      "epoch": 0.27759827679052235,
      "grad_norm": 0.2582680881023407,
      "learning_rate": 5e-05,
      "loss": 1.9282,
      "step": 6062
    },
    {
      "epoch": 0.27773290253096394,
      "grad_norm": 0.2510932981967926,
      "learning_rate": 5e-05,
      "loss": 1.8805,
      "step": 6063
    },
    {
      "epoch": 0.2778675282714055,
      "grad_norm": 0.26781293749809265,
      "learning_rate": 5e-05,
      "loss": 1.8885,
      "step": 6064
    },
    {
      "epoch": 0.2780021540118471,
      "grad_norm": 0.28977078199386597,
      "learning_rate": 5e-05,
      "loss": 2.1148,
      "step": 6065
    },
    {
      "epoch": 0.2781367797522886,
      "grad_norm": 0.28006747364997864,
      "learning_rate": 5e-05,
      "loss": 2.0103,
      "step": 6066
    },
    {
      "epoch": 0.2782714054927302,
      "grad_norm": 0.2697712182998657,
      "learning_rate": 5e-05,
      "loss": 1.9932,
      "step": 6067
    },
    {
      "epoch": 0.27840603123317176,
      "grad_norm": 0.331045001745224,
      "learning_rate": 5e-05,
      "loss": 2.8561,
      "step": 6068
    },
    {
      "epoch": 0.27854065697361335,
      "grad_norm": 0.48686957359313965,
      "learning_rate": 5e-05,
      "loss": 3.3417,
      "step": 6069
    },
    {
      "epoch": 0.27867528271405495,
      "grad_norm": 0.29622936248779297,
      "learning_rate": 5e-05,
      "loss": 2.2395,
      "step": 6070
    },
    {
      "epoch": 0.2788099084544965,
      "grad_norm": 0.27006039023399353,
      "learning_rate": 5e-05,
      "loss": 1.8494,
      "step": 6071
    },
    {
      "epoch": 0.2789445341949381,
      "grad_norm": 0.2661553621292114,
      "learning_rate": 5e-05,
      "loss": 2.3038,
      "step": 6072
    },
    {
      "epoch": 0.27907915993537963,
      "grad_norm": 0.3183733820915222,
      "learning_rate": 5e-05,
      "loss": 2.1393,
      "step": 6073
    },
    {
      "epoch": 0.2792137856758212,
      "grad_norm": 0.2662230432033539,
      "learning_rate": 5e-05,
      "loss": 1.746,
      "step": 6074
    },
    {
      "epoch": 0.27934841141626277,
      "grad_norm": 0.25893014669418335,
      "learning_rate": 5e-05,
      "loss": 1.9191,
      "step": 6075
    },
    {
      "epoch": 0.27948303715670436,
      "grad_norm": 0.3110651671886444,
      "learning_rate": 5e-05,
      "loss": 2.4301,
      "step": 6076
    },
    {
      "epoch": 0.27961766289714596,
      "grad_norm": 0.2727108895778656,
      "learning_rate": 5e-05,
      "loss": 2.2216,
      "step": 6077
    },
    {
      "epoch": 0.2797522886375875,
      "grad_norm": 0.27586880326271057,
      "learning_rate": 5e-05,
      "loss": 1.8303,
      "step": 6078
    },
    {
      "epoch": 0.2798869143780291,
      "grad_norm": 0.273944616317749,
      "learning_rate": 5e-05,
      "loss": 1.9687,
      "step": 6079
    },
    {
      "epoch": 0.28002154011847064,
      "grad_norm": 0.29300832748413086,
      "learning_rate": 5e-05,
      "loss": 2.151,
      "step": 6080
    },
    {
      "epoch": 0.28015616585891223,
      "grad_norm": 0.27212634682655334,
      "learning_rate": 5e-05,
      "loss": 1.9006,
      "step": 6081
    },
    {
      "epoch": 0.2802907915993538,
      "grad_norm": 0.2782834470272064,
      "learning_rate": 5e-05,
      "loss": 2.1658,
      "step": 6082
    },
    {
      "epoch": 0.28042541733979537,
      "grad_norm": 0.2832759618759155,
      "learning_rate": 5e-05,
      "loss": 2.0753,
      "step": 6083
    },
    {
      "epoch": 0.28056004308023696,
      "grad_norm": 0.36661550402641296,
      "learning_rate": 5e-05,
      "loss": 2.1171,
      "step": 6084
    },
    {
      "epoch": 0.2806946688206785,
      "grad_norm": 0.2652663588523865,
      "learning_rate": 5e-05,
      "loss": 1.6817,
      "step": 6085
    },
    {
      "epoch": 0.2808292945611201,
      "grad_norm": 0.43308526277542114,
      "learning_rate": 5e-05,
      "loss": 2.7953,
      "step": 6086
    },
    {
      "epoch": 0.28096392030156164,
      "grad_norm": 0.29740577936172485,
      "learning_rate": 5e-05,
      "loss": 2.2383,
      "step": 6087
    },
    {
      "epoch": 0.28109854604200324,
      "grad_norm": 0.26283973455429077,
      "learning_rate": 5e-05,
      "loss": 1.6558,
      "step": 6088
    },
    {
      "epoch": 0.2812331717824448,
      "grad_norm": 0.313140332698822,
      "learning_rate": 5e-05,
      "loss": 2.1496,
      "step": 6089
    },
    {
      "epoch": 0.2813677975228864,
      "grad_norm": 0.2601427435874939,
      "learning_rate": 5e-05,
      "loss": 1.8069,
      "step": 6090
    },
    {
      "epoch": 0.28150242326332797,
      "grad_norm": 0.26743626594543457,
      "learning_rate": 5e-05,
      "loss": 1.8181,
      "step": 6091
    },
    {
      "epoch": 0.2816370490037695,
      "grad_norm": 0.25137993693351746,
      "learning_rate": 5e-05,
      "loss": 1.7907,
      "step": 6092
    },
    {
      "epoch": 0.2817716747442111,
      "grad_norm": 0.35108667612075806,
      "learning_rate": 5e-05,
      "loss": 3.1164,
      "step": 6093
    },
    {
      "epoch": 0.28190630048465265,
      "grad_norm": 0.2708510160446167,
      "learning_rate": 5e-05,
      "loss": 2.1461,
      "step": 6094
    },
    {
      "epoch": 0.28204092622509425,
      "grad_norm": 0.2826458513736725,
      "learning_rate": 5e-05,
      "loss": 1.5743,
      "step": 6095
    },
    {
      "epoch": 0.2821755519655358,
      "grad_norm": 0.2628275752067566,
      "learning_rate": 5e-05,
      "loss": 1.6645,
      "step": 6096
    },
    {
      "epoch": 0.2823101777059774,
      "grad_norm": 0.27926746010780334,
      "learning_rate": 5e-05,
      "loss": 1.9283,
      "step": 6097
    },
    {
      "epoch": 0.282444803446419,
      "grad_norm": 0.2691763937473297,
      "learning_rate": 5e-05,
      "loss": 1.9292,
      "step": 6098
    },
    {
      "epoch": 0.2825794291868605,
      "grad_norm": 0.2507818937301636,
      "learning_rate": 5e-05,
      "loss": 1.8319,
      "step": 6099
    },
    {
      "epoch": 0.2827140549273021,
      "grad_norm": 0.27952831983566284,
      "learning_rate": 5e-05,
      "loss": 1.9845,
      "step": 6100
    },
    {
      "epoch": 0.28284868066774366,
      "grad_norm": 0.3921434283256531,
      "learning_rate": 5e-05,
      "loss": 3.3369,
      "step": 6101
    },
    {
      "epoch": 0.28298330640818525,
      "grad_norm": 0.28788772225379944,
      "learning_rate": 5e-05,
      "loss": 2.7767,
      "step": 6102
    },
    {
      "epoch": 0.2831179321486268,
      "grad_norm": 0.27736371755599976,
      "learning_rate": 5e-05,
      "loss": 1.9459,
      "step": 6103
    },
    {
      "epoch": 0.2832525578890684,
      "grad_norm": 0.33254876732826233,
      "learning_rate": 5e-05,
      "loss": 2.3879,
      "step": 6104
    },
    {
      "epoch": 0.28338718362951,
      "grad_norm": 0.3171115219593048,
      "learning_rate": 5e-05,
      "loss": 2.0083,
      "step": 6105
    },
    {
      "epoch": 0.2835218093699515,
      "grad_norm": 0.26272550225257874,
      "learning_rate": 5e-05,
      "loss": 1.8459,
      "step": 6106
    },
    {
      "epoch": 0.2836564351103931,
      "grad_norm": 0.2633281350135803,
      "learning_rate": 5e-05,
      "loss": 1.5363,
      "step": 6107
    },
    {
      "epoch": 0.28379106085083466,
      "grad_norm": 0.28224503993988037,
      "learning_rate": 5e-05,
      "loss": 2.2017,
      "step": 6108
    },
    {
      "epoch": 0.28392568659127626,
      "grad_norm": 0.27559199929237366,
      "learning_rate": 5e-05,
      "loss": 1.6235,
      "step": 6109
    },
    {
      "epoch": 0.2840603123317178,
      "grad_norm": 0.2927948534488678,
      "learning_rate": 5e-05,
      "loss": 2.248,
      "step": 6110
    },
    {
      "epoch": 0.2841949380721594,
      "grad_norm": 0.2886320948600769,
      "learning_rate": 5e-05,
      "loss": 1.8126,
      "step": 6111
    },
    {
      "epoch": 0.284329563812601,
      "grad_norm": 0.2973446846008301,
      "learning_rate": 5e-05,
      "loss": 2.1252,
      "step": 6112
    },
    {
      "epoch": 0.28446418955304253,
      "grad_norm": 0.26020708680152893,
      "learning_rate": 5e-05,
      "loss": 1.7728,
      "step": 6113
    },
    {
      "epoch": 0.28459881529348413,
      "grad_norm": 0.29757368564605713,
      "learning_rate": 5e-05,
      "loss": 1.5732,
      "step": 6114
    },
    {
      "epoch": 0.28473344103392567,
      "grad_norm": 0.2946988344192505,
      "learning_rate": 5e-05,
      "loss": 2.4125,
      "step": 6115
    },
    {
      "epoch": 0.28486806677436727,
      "grad_norm": 0.2678997814655304,
      "learning_rate": 5e-05,
      "loss": 2.14,
      "step": 6116
    },
    {
      "epoch": 0.2850026925148088,
      "grad_norm": 0.2710604965686798,
      "learning_rate": 5e-05,
      "loss": 2.0158,
      "step": 6117
    },
    {
      "epoch": 0.2851373182552504,
      "grad_norm": 0.27106747031211853,
      "learning_rate": 5e-05,
      "loss": 2.1568,
      "step": 6118
    },
    {
      "epoch": 0.285271943995692,
      "grad_norm": 0.2631559669971466,
      "learning_rate": 5e-05,
      "loss": 2.036,
      "step": 6119
    },
    {
      "epoch": 0.28540656973613354,
      "grad_norm": 0.25140127539634705,
      "learning_rate": 5e-05,
      "loss": 1.8633,
      "step": 6120
    },
    {
      "epoch": 0.28554119547657514,
      "grad_norm": 0.26151686906814575,
      "learning_rate": 5e-05,
      "loss": 2.2314,
      "step": 6121
    },
    {
      "epoch": 0.2856758212170167,
      "grad_norm": 0.2712617814540863,
      "learning_rate": 5e-05,
      "loss": 2.0609,
      "step": 6122
    },
    {
      "epoch": 0.2858104469574583,
      "grad_norm": 0.2570765018463135,
      "learning_rate": 5e-05,
      "loss": 1.6657,
      "step": 6123
    },
    {
      "epoch": 0.2859450726978998,
      "grad_norm": 0.28607115149497986,
      "learning_rate": 5e-05,
      "loss": 2.0349,
      "step": 6124
    },
    {
      "epoch": 0.2860796984383414,
      "grad_norm": 0.28854912519454956,
      "learning_rate": 5e-05,
      "loss": 1.7901,
      "step": 6125
    },
    {
      "epoch": 0.286214324178783,
      "grad_norm": 0.2632524371147156,
      "learning_rate": 5e-05,
      "loss": 2.0641,
      "step": 6126
    },
    {
      "epoch": 0.28634894991922455,
      "grad_norm": 0.25608888268470764,
      "learning_rate": 5e-05,
      "loss": 1.5562,
      "step": 6127
    },
    {
      "epoch": 0.28648357565966615,
      "grad_norm": 0.2526845335960388,
      "learning_rate": 5e-05,
      "loss": 1.8092,
      "step": 6128
    },
    {
      "epoch": 0.2866182014001077,
      "grad_norm": 0.2668425440788269,
      "learning_rate": 5e-05,
      "loss": 1.725,
      "step": 6129
    },
    {
      "epoch": 0.2867528271405493,
      "grad_norm": 0.31777772307395935,
      "learning_rate": 5e-05,
      "loss": 2.4712,
      "step": 6130
    },
    {
      "epoch": 0.2868874528809908,
      "grad_norm": 0.2833808362483978,
      "learning_rate": 5e-05,
      "loss": 2.019,
      "step": 6131
    },
    {
      "epoch": 0.2870220786214324,
      "grad_norm": 0.2798233926296234,
      "learning_rate": 5e-05,
      "loss": 2.4307,
      "step": 6132
    },
    {
      "epoch": 0.287156704361874,
      "grad_norm": 0.2556464970111847,
      "learning_rate": 5e-05,
      "loss": 2.002,
      "step": 6133
    },
    {
      "epoch": 0.28729133010231556,
      "grad_norm": 0.2563398778438568,
      "learning_rate": 5e-05,
      "loss": 1.7292,
      "step": 6134
    },
    {
      "epoch": 0.28742595584275715,
      "grad_norm": 0.2783190608024597,
      "learning_rate": 5e-05,
      "loss": 1.837,
      "step": 6135
    },
    {
      "epoch": 0.2875605815831987,
      "grad_norm": 0.26027655601501465,
      "learning_rate": 5e-05,
      "loss": 1.7406,
      "step": 6136
    },
    {
      "epoch": 0.2876952073236403,
      "grad_norm": 0.2701170742511749,
      "learning_rate": 5e-05,
      "loss": 2.274,
      "step": 6137
    },
    {
      "epoch": 0.28782983306408183,
      "grad_norm": 0.28176257014274597,
      "learning_rate": 5e-05,
      "loss": 2.3021,
      "step": 6138
    },
    {
      "epoch": 0.2879644588045234,
      "grad_norm": 0.3076695203781128,
      "learning_rate": 5e-05,
      "loss": 2.0902,
      "step": 6139
    },
    {
      "epoch": 0.288099084544965,
      "grad_norm": 0.27041134238243103,
      "learning_rate": 5e-05,
      "loss": 1.6978,
      "step": 6140
    },
    {
      "epoch": 0.28823371028540656,
      "grad_norm": 0.2519488036632538,
      "learning_rate": 5e-05,
      "loss": 1.8197,
      "step": 6141
    },
    {
      "epoch": 0.28836833602584816,
      "grad_norm": 0.2728431522846222,
      "learning_rate": 5e-05,
      "loss": 1.9136,
      "step": 6142
    },
    {
      "epoch": 0.2885029617662897,
      "grad_norm": 0.27250880002975464,
      "learning_rate": 5e-05,
      "loss": 1.6141,
      "step": 6143
    },
    {
      "epoch": 0.2886375875067313,
      "grad_norm": 0.2905663549900055,
      "learning_rate": 5e-05,
      "loss": 1.8261,
      "step": 6144
    },
    {
      "epoch": 0.28877221324717284,
      "grad_norm": 0.2660614848136902,
      "learning_rate": 5e-05,
      "loss": 1.746,
      "step": 6145
    },
    {
      "epoch": 0.28890683898761443,
      "grad_norm": 0.26046061515808105,
      "learning_rate": 5e-05,
      "loss": 1.6132,
      "step": 6146
    },
    {
      "epoch": 0.28904146472805603,
      "grad_norm": 0.28651565313339233,
      "learning_rate": 5e-05,
      "loss": 2.0085,
      "step": 6147
    },
    {
      "epoch": 0.28917609046849757,
      "grad_norm": 0.267441987991333,
      "learning_rate": 5e-05,
      "loss": 1.6085,
      "step": 6148
    },
    {
      "epoch": 0.28931071620893917,
      "grad_norm": 0.27518361806869507,
      "learning_rate": 5e-05,
      "loss": 2.1363,
      "step": 6149
    },
    {
      "epoch": 0.2894453419493807,
      "grad_norm": 0.29663723707199097,
      "learning_rate": 5e-05,
      "loss": 2.1509,
      "step": 6150
    },
    {
      "epoch": 0.2895799676898223,
      "grad_norm": 0.37474337220191956,
      "learning_rate": 5e-05,
      "loss": 3.2186,
      "step": 6151
    },
    {
      "epoch": 0.28971459343026384,
      "grad_norm": 0.2723568081855774,
      "learning_rate": 5e-05,
      "loss": 2.1432,
      "step": 6152
    },
    {
      "epoch": 0.28984921917070544,
      "grad_norm": 0.2867092490196228,
      "learning_rate": 5e-05,
      "loss": 2.0941,
      "step": 6153
    },
    {
      "epoch": 0.28998384491114704,
      "grad_norm": 0.2613318860530853,
      "learning_rate": 5e-05,
      "loss": 1.9047,
      "step": 6154
    },
    {
      "epoch": 0.2901184706515886,
      "grad_norm": 0.2709292471408844,
      "learning_rate": 5e-05,
      "loss": 2.0164,
      "step": 6155
    },
    {
      "epoch": 0.2902530963920302,
      "grad_norm": 0.27191001176834106,
      "learning_rate": 5e-05,
      "loss": 2.1816,
      "step": 6156
    },
    {
      "epoch": 0.2903877221324717,
      "grad_norm": 0.26868802309036255,
      "learning_rate": 5e-05,
      "loss": 1.9146,
      "step": 6157
    },
    {
      "epoch": 0.2905223478729133,
      "grad_norm": 0.253768652677536,
      "learning_rate": 5e-05,
      "loss": 2.0758,
      "step": 6158
    },
    {
      "epoch": 0.29065697361335485,
      "grad_norm": 0.2631428837776184,
      "learning_rate": 5e-05,
      "loss": 2.176,
      "step": 6159
    },
    {
      "epoch": 0.29079159935379645,
      "grad_norm": 0.26263466477394104,
      "learning_rate": 5e-05,
      "loss": 1.8956,
      "step": 6160
    },
    {
      "epoch": 0.29092622509423804,
      "grad_norm": 0.2464642971754074,
      "learning_rate": 5e-05,
      "loss": 1.8005,
      "step": 6161
    },
    {
      "epoch": 0.2910608508346796,
      "grad_norm": 0.2825566232204437,
      "learning_rate": 5e-05,
      "loss": 2.1133,
      "step": 6162
    },
    {
      "epoch": 0.2911954765751212,
      "grad_norm": 0.2783011496067047,
      "learning_rate": 5e-05,
      "loss": 1.9953,
      "step": 6163
    },
    {
      "epoch": 0.2913301023155627,
      "grad_norm": 0.2707943022251129,
      "learning_rate": 5e-05,
      "loss": 2.3641,
      "step": 6164
    },
    {
      "epoch": 0.2914647280560043,
      "grad_norm": 0.2892534136772156,
      "learning_rate": 5e-05,
      "loss": 1.9983,
      "step": 6165
    },
    {
      "epoch": 0.29159935379644586,
      "grad_norm": 0.33217743039131165,
      "learning_rate": 5e-05,
      "loss": 2.1155,
      "step": 6166
    },
    {
      "epoch": 0.29173397953688746,
      "grad_norm": 0.2607833743095398,
      "learning_rate": 5e-05,
      "loss": 2.0851,
      "step": 6167
    },
    {
      "epoch": 0.29186860527732905,
      "grad_norm": 0.2745482623577118,
      "learning_rate": 5e-05,
      "loss": 2.0513,
      "step": 6168
    },
    {
      "epoch": 0.2920032310177706,
      "grad_norm": 0.2793610692024231,
      "learning_rate": 5e-05,
      "loss": 1.9941,
      "step": 6169
    },
    {
      "epoch": 0.2921378567582122,
      "grad_norm": 0.25198450684547424,
      "learning_rate": 5e-05,
      "loss": 1.9087,
      "step": 6170
    },
    {
      "epoch": 0.29227248249865373,
      "grad_norm": 0.2900124192237854,
      "learning_rate": 5e-05,
      "loss": 2.2385,
      "step": 6171
    },
    {
      "epoch": 0.2924071082390953,
      "grad_norm": 0.41071999073028564,
      "learning_rate": 5e-05,
      "loss": 2.8473,
      "step": 6172
    },
    {
      "epoch": 0.29254173397953687,
      "grad_norm": 0.3166424632072449,
      "learning_rate": 5e-05,
      "loss": 2.2016,
      "step": 6173
    },
    {
      "epoch": 0.29267635971997846,
      "grad_norm": 0.2790709435939789,
      "learning_rate": 5e-05,
      "loss": 1.7341,
      "step": 6174
    },
    {
      "epoch": 0.29281098546042006,
      "grad_norm": 0.34259891510009766,
      "learning_rate": 5e-05,
      "loss": 2.8335,
      "step": 6175
    },
    {
      "epoch": 0.2929456112008616,
      "grad_norm": 0.3477739691734314,
      "learning_rate": 5e-05,
      "loss": 1.7704,
      "step": 6176
    },
    {
      "epoch": 0.2930802369413032,
      "grad_norm": 0.3027801215648651,
      "learning_rate": 5e-05,
      "loss": 2.3515,
      "step": 6177
    },
    {
      "epoch": 0.29321486268174474,
      "grad_norm": 0.2708408534526825,
      "learning_rate": 5e-05,
      "loss": 1.7913,
      "step": 6178
    },
    {
      "epoch": 0.29334948842218633,
      "grad_norm": 0.26270487904548645,
      "learning_rate": 5e-05,
      "loss": 1.5501,
      "step": 6179
    },
    {
      "epoch": 0.2934841141626279,
      "grad_norm": 0.29160481691360474,
      "learning_rate": 5e-05,
      "loss": 1.9978,
      "step": 6180
    },
    {
      "epoch": 0.29361873990306947,
      "grad_norm": 0.33495497703552246,
      "learning_rate": 5e-05,
      "loss": 2.7319,
      "step": 6181
    },
    {
      "epoch": 0.29375336564351107,
      "grad_norm": 0.30826693773269653,
      "learning_rate": 5e-05,
      "loss": 1.8845,
      "step": 6182
    },
    {
      "epoch": 0.2938879913839526,
      "grad_norm": 0.2803778648376465,
      "learning_rate": 5e-05,
      "loss": 1.8218,
      "step": 6183
    },
    {
      "epoch": 0.2940226171243942,
      "grad_norm": 0.2658746540546417,
      "learning_rate": 5e-05,
      "loss": 2.6645,
      "step": 6184
    },
    {
      "epoch": 0.29415724286483574,
      "grad_norm": 0.2772275507450104,
      "learning_rate": 5e-05,
      "loss": 2.3483,
      "step": 6185
    },
    {
      "epoch": 0.29429186860527734,
      "grad_norm": 0.2770616114139557,
      "learning_rate": 5e-05,
      "loss": 1.9836,
      "step": 6186
    },
    {
      "epoch": 0.2944264943457189,
      "grad_norm": 0.3244261145591736,
      "learning_rate": 5e-05,
      "loss": 3.331,
      "step": 6187
    },
    {
      "epoch": 0.2945611200861605,
      "grad_norm": 0.292479008436203,
      "learning_rate": 5e-05,
      "loss": 2.2111,
      "step": 6188
    },
    {
      "epoch": 0.2946957458266021,
      "grad_norm": 0.28039807081222534,
      "learning_rate": 5e-05,
      "loss": 2.0685,
      "step": 6189
    },
    {
      "epoch": 0.2948303715670436,
      "grad_norm": 0.273690789937973,
      "learning_rate": 5e-05,
      "loss": 2.0581,
      "step": 6190
    },
    {
      "epoch": 0.2949649973074852,
      "grad_norm": 0.2707335948944092,
      "learning_rate": 5e-05,
      "loss": 2.3432,
      "step": 6191
    },
    {
      "epoch": 0.29509962304792675,
      "grad_norm": 0.2979954481124878,
      "learning_rate": 5e-05,
      "loss": 2.1669,
      "step": 6192
    },
    {
      "epoch": 0.29523424878836835,
      "grad_norm": 0.2869621813297272,
      "learning_rate": 5e-05,
      "loss": 2.263,
      "step": 6193
    },
    {
      "epoch": 0.2953688745288099,
      "grad_norm": 0.3579563796520233,
      "learning_rate": 5e-05,
      "loss": 3.6984,
      "step": 6194
    },
    {
      "epoch": 0.2955035002692515,
      "grad_norm": 0.2692711055278778,
      "learning_rate": 5e-05,
      "loss": 1.8934,
      "step": 6195
    },
    {
      "epoch": 0.2956381260096931,
      "grad_norm": 0.28514885902404785,
      "learning_rate": 5e-05,
      "loss": 2.1441,
      "step": 6196
    },
    {
      "epoch": 0.2957727517501346,
      "grad_norm": 0.2704326808452606,
      "learning_rate": 5e-05,
      "loss": 1.5259,
      "step": 6197
    },
    {
      "epoch": 0.2959073774905762,
      "grad_norm": 0.3243916630744934,
      "learning_rate": 5e-05,
      "loss": 2.083,
      "step": 6198
    },
    {
      "epoch": 0.29604200323101776,
      "grad_norm": 0.28617677092552185,
      "learning_rate": 5e-05,
      "loss": 1.8224,
      "step": 6199
    },
    {
      "epoch": 0.29617662897145935,
      "grad_norm": 0.2678101062774658,
      "learning_rate": 5e-05,
      "loss": 1.7435,
      "step": 6200
    },
    {
      "epoch": 0.2963112547119009,
      "grad_norm": 0.26889386773109436,
      "learning_rate": 5e-05,
      "loss": 1.6894,
      "step": 6201
    },
    {
      "epoch": 0.2964458804523425,
      "grad_norm": 0.2726268768310547,
      "learning_rate": 5e-05,
      "loss": 2.502,
      "step": 6202
    },
    {
      "epoch": 0.2965805061927841,
      "grad_norm": 0.28204238414764404,
      "learning_rate": 5e-05,
      "loss": 2.9027,
      "step": 6203
    },
    {
      "epoch": 0.29671513193322563,
      "grad_norm": 0.25842660665512085,
      "learning_rate": 5e-05,
      "loss": 1.8687,
      "step": 6204
    },
    {
      "epoch": 0.2968497576736672,
      "grad_norm": 0.30411040782928467,
      "learning_rate": 5e-05,
      "loss": 2.326,
      "step": 6205
    },
    {
      "epoch": 0.29698438341410877,
      "grad_norm": 0.3037707805633545,
      "learning_rate": 5e-05,
      "loss": 2.6659,
      "step": 6206
    },
    {
      "epoch": 0.29711900915455036,
      "grad_norm": 0.26934605836868286,
      "learning_rate": 5e-05,
      "loss": 1.6459,
      "step": 6207
    },
    {
      "epoch": 0.2972536348949919,
      "grad_norm": 0.31639790534973145,
      "learning_rate": 5e-05,
      "loss": 2.4912,
      "step": 6208
    },
    {
      "epoch": 0.2973882606354335,
      "grad_norm": 0.26941609382629395,
      "learning_rate": 5e-05,
      "loss": 1.622,
      "step": 6209
    },
    {
      "epoch": 0.29752288637587504,
      "grad_norm": 0.27129337191581726,
      "learning_rate": 5e-05,
      "loss": 1.7522,
      "step": 6210
    },
    {
      "epoch": 0.29765751211631664,
      "grad_norm": 0.3170247972011566,
      "learning_rate": 5e-05,
      "loss": 2.4815,
      "step": 6211
    },
    {
      "epoch": 0.29779213785675823,
      "grad_norm": 0.2810630798339844,
      "learning_rate": 5e-05,
      "loss": 2.2594,
      "step": 6212
    },
    {
      "epoch": 0.2979267635971998,
      "grad_norm": 0.2836386263370514,
      "learning_rate": 5e-05,
      "loss": 1.8839,
      "step": 6213
    },
    {
      "epoch": 0.29806138933764137,
      "grad_norm": 0.28751274943351746,
      "learning_rate": 5e-05,
      "loss": 2.0446,
      "step": 6214
    },
    {
      "epoch": 0.2981960150780829,
      "grad_norm": 0.28392767906188965,
      "learning_rate": 5e-05,
      "loss": 2.2873,
      "step": 6215
    },
    {
      "epoch": 0.2983306408185245,
      "grad_norm": 0.2881193161010742,
      "learning_rate": 5e-05,
      "loss": 2.432,
      "step": 6216
    },
    {
      "epoch": 0.29846526655896605,
      "grad_norm": 0.2910539507865906,
      "learning_rate": 5e-05,
      "loss": 1.865,
      "step": 6217
    },
    {
      "epoch": 0.29859989229940764,
      "grad_norm": 0.2803501486778259,
      "learning_rate": 5e-05,
      "loss": 1.6599,
      "step": 6218
    },
    {
      "epoch": 0.29873451803984924,
      "grad_norm": 0.28199416399002075,
      "learning_rate": 5e-05,
      "loss": 2.1737,
      "step": 6219
    },
    {
      "epoch": 0.2988691437802908,
      "grad_norm": 0.27187028527259827,
      "learning_rate": 5e-05,
      "loss": 1.8055,
      "step": 6220
    },
    {
      "epoch": 0.2990037695207324,
      "grad_norm": 0.3531956970691681,
      "learning_rate": 5e-05,
      "loss": 2.8249,
      "step": 6221
    },
    {
      "epoch": 0.2991383952611739,
      "grad_norm": 0.30328044295310974,
      "learning_rate": 5e-05,
      "loss": 2.4613,
      "step": 6222
    },
    {
      "epoch": 0.2992730210016155,
      "grad_norm": 0.289742112159729,
      "learning_rate": 5e-05,
      "loss": 2.1519,
      "step": 6223
    },
    {
      "epoch": 0.29940764674205705,
      "grad_norm": 0.2757534086704254,
      "learning_rate": 5e-05,
      "loss": 2.0267,
      "step": 6224
    },
    {
      "epoch": 0.29954227248249865,
      "grad_norm": 0.41413670778274536,
      "learning_rate": 5e-05,
      "loss": 2.4186,
      "step": 6225
    },
    {
      "epoch": 0.29967689822294025,
      "grad_norm": 0.2566508650779724,
      "learning_rate": 5e-05,
      "loss": 1.7392,
      "step": 6226
    },
    {
      "epoch": 0.2998115239633818,
      "grad_norm": 0.330574095249176,
      "learning_rate": 5e-05,
      "loss": 2.3909,
      "step": 6227
    },
    {
      "epoch": 0.2999461497038234,
      "grad_norm": 0.2669893801212311,
      "learning_rate": 5e-05,
      "loss": 1.7323,
      "step": 6228
    },
    {
      "epoch": 0.3000807754442649,
      "grad_norm": 0.2706354856491089,
      "learning_rate": 5e-05,
      "loss": 1.7592,
      "step": 6229
    },
    {
      "epoch": 0.3002154011847065,
      "grad_norm": 0.2649078071117401,
      "learning_rate": 5e-05,
      "loss": 1.9773,
      "step": 6230
    },
    {
      "epoch": 0.30035002692514806,
      "grad_norm": 0.27768781781196594,
      "learning_rate": 5e-05,
      "loss": 1.9925,
      "step": 6231
    },
    {
      "epoch": 0.30048465266558966,
      "grad_norm": 0.331830769777298,
      "learning_rate": 5e-05,
      "loss": 2.211,
      "step": 6232
    },
    {
      "epoch": 0.30061927840603125,
      "grad_norm": 0.28727051615715027,
      "learning_rate": 5e-05,
      "loss": 2.1144,
      "step": 6233
    },
    {
      "epoch": 0.3007539041464728,
      "grad_norm": 0.26912063360214233,
      "learning_rate": 5e-05,
      "loss": 1.9448,
      "step": 6234
    },
    {
      "epoch": 0.3008885298869144,
      "grad_norm": 0.2614346444606781,
      "learning_rate": 5e-05,
      "loss": 1.6682,
      "step": 6235
    },
    {
      "epoch": 0.30102315562735593,
      "grad_norm": 0.29376599192619324,
      "learning_rate": 5e-05,
      "loss": 2.1819,
      "step": 6236
    },
    {
      "epoch": 0.30115778136779753,
      "grad_norm": 0.44114628434181213,
      "learning_rate": 5e-05,
      "loss": 2.7231,
      "step": 6237
    },
    {
      "epoch": 0.30129240710823907,
      "grad_norm": 0.26778480410575867,
      "learning_rate": 5e-05,
      "loss": 1.8914,
      "step": 6238
    },
    {
      "epoch": 0.30142703284868066,
      "grad_norm": 0.3061193823814392,
      "learning_rate": 5e-05,
      "loss": 1.86,
      "step": 6239
    },
    {
      "epoch": 0.30156165858912226,
      "grad_norm": 0.31679147481918335,
      "learning_rate": 5e-05,
      "loss": 2.0486,
      "step": 6240
    },
    {
      "epoch": 0.3016962843295638,
      "grad_norm": 0.31711819767951965,
      "learning_rate": 5e-05,
      "loss": 2.2298,
      "step": 6241
    },
    {
      "epoch": 0.3018309100700054,
      "grad_norm": 0.2677430212497711,
      "learning_rate": 5e-05,
      "loss": 1.7773,
      "step": 6242
    },
    {
      "epoch": 0.30196553581044694,
      "grad_norm": 0.3641117513179779,
      "learning_rate": 5e-05,
      "loss": 2.3836,
      "step": 6243
    },
    {
      "epoch": 0.30210016155088854,
      "grad_norm": 0.25784215331077576,
      "learning_rate": 5e-05,
      "loss": 1.8191,
      "step": 6244
    },
    {
      "epoch": 0.3022347872913301,
      "grad_norm": 0.26313677430152893,
      "learning_rate": 5e-05,
      "loss": 1.6913,
      "step": 6245
    },
    {
      "epoch": 0.30236941303177167,
      "grad_norm": 0.30461764335632324,
      "learning_rate": 5e-05,
      "loss": 2.4343,
      "step": 6246
    },
    {
      "epoch": 0.30250403877221327,
      "grad_norm": 0.27067530155181885,
      "learning_rate": 5e-05,
      "loss": 2.0593,
      "step": 6247
    },
    {
      "epoch": 0.3026386645126548,
      "grad_norm": 0.2830635905265808,
      "learning_rate": 5e-05,
      "loss": 1.8676,
      "step": 6248
    },
    {
      "epoch": 0.3027732902530964,
      "grad_norm": 0.27614498138427734,
      "learning_rate": 5e-05,
      "loss": 2.0684,
      "step": 6249
    },
    {
      "epoch": 0.30290791599353795,
      "grad_norm": 0.28945738077163696,
      "learning_rate": 5e-05,
      "loss": 1.866,
      "step": 6250
    },
    {
      "epoch": 0.30304254173397954,
      "grad_norm": 0.24396012723445892,
      "learning_rate": 5e-05,
      "loss": 1.9148,
      "step": 6251
    },
    {
      "epoch": 0.3031771674744211,
      "grad_norm": 0.3474750220775604,
      "learning_rate": 5e-05,
      "loss": 2.9255,
      "step": 6252
    },
    {
      "epoch": 0.3033117932148627,
      "grad_norm": 0.32522720098495483,
      "learning_rate": 5e-05,
      "loss": 1.9695,
      "step": 6253
    },
    {
      "epoch": 0.3034464189553043,
      "grad_norm": 0.285432904958725,
      "learning_rate": 5e-05,
      "loss": 1.8768,
      "step": 6254
    },
    {
      "epoch": 0.3035810446957458,
      "grad_norm": 0.2770983874797821,
      "learning_rate": 5e-05,
      "loss": 2.2936,
      "step": 6255
    },
    {
      "epoch": 0.3037156704361874,
      "grad_norm": 0.2930667996406555,
      "learning_rate": 5e-05,
      "loss": 1.9526,
      "step": 6256
    },
    {
      "epoch": 0.30385029617662895,
      "grad_norm": 0.2692784070968628,
      "learning_rate": 5e-05,
      "loss": 2.0604,
      "step": 6257
    },
    {
      "epoch": 0.30398492191707055,
      "grad_norm": 0.2758691906929016,
      "learning_rate": 5e-05,
      "loss": 2.6203,
      "step": 6258
    },
    {
      "epoch": 0.3041195476575121,
      "grad_norm": 0.2576327919960022,
      "learning_rate": 5e-05,
      "loss": 1.9374,
      "step": 6259
    },
    {
      "epoch": 0.3042541733979537,
      "grad_norm": 0.2993873953819275,
      "learning_rate": 5e-05,
      "loss": 2.3737,
      "step": 6260
    },
    {
      "epoch": 0.3043887991383953,
      "grad_norm": 0.2830709218978882,
      "learning_rate": 5e-05,
      "loss": 2.2315,
      "step": 6261
    },
    {
      "epoch": 0.3045234248788368,
      "grad_norm": 0.2585917115211487,
      "learning_rate": 5e-05,
      "loss": 1.5696,
      "step": 6262
    },
    {
      "epoch": 0.3046580506192784,
      "grad_norm": 0.28606510162353516,
      "learning_rate": 5e-05,
      "loss": 2.3496,
      "step": 6263
    },
    {
      "epoch": 0.30479267635971996,
      "grad_norm": 0.3082789480686188,
      "learning_rate": 5e-05,
      "loss": 2.2615,
      "step": 6264
    },
    {
      "epoch": 0.30492730210016156,
      "grad_norm": 0.2603731155395508,
      "learning_rate": 5e-05,
      "loss": 1.8257,
      "step": 6265
    },
    {
      "epoch": 0.3050619278406031,
      "grad_norm": 0.3176213204860687,
      "learning_rate": 5e-05,
      "loss": 2.2398,
      "step": 6266
    },
    {
      "epoch": 0.3051965535810447,
      "grad_norm": 0.2825177013874054,
      "learning_rate": 5e-05,
      "loss": 1.9904,
      "step": 6267
    },
    {
      "epoch": 0.3053311793214863,
      "grad_norm": 0.30976611375808716,
      "learning_rate": 5e-05,
      "loss": 1.8557,
      "step": 6268
    },
    {
      "epoch": 0.30546580506192783,
      "grad_norm": 0.24638207256793976,
      "learning_rate": 5e-05,
      "loss": 1.7836,
      "step": 6269
    },
    {
      "epoch": 0.3056004308023694,
      "grad_norm": 0.25044453144073486,
      "learning_rate": 5e-05,
      "loss": 1.5056,
      "step": 6270
    },
    {
      "epoch": 0.30573505654281097,
      "grad_norm": 0.2697269022464752,
      "learning_rate": 5e-05,
      "loss": 1.8022,
      "step": 6271
    },
    {
      "epoch": 0.30586968228325256,
      "grad_norm": 0.2525237202644348,
      "learning_rate": 5e-05,
      "loss": 1.8561,
      "step": 6272
    },
    {
      "epoch": 0.3060043080236941,
      "grad_norm": 0.25308236479759216,
      "learning_rate": 5e-05,
      "loss": 1.8218,
      "step": 6273
    },
    {
      "epoch": 0.3061389337641357,
      "grad_norm": 0.2529856264591217,
      "learning_rate": 5e-05,
      "loss": 1.9263,
      "step": 6274
    },
    {
      "epoch": 0.3062735595045773,
      "grad_norm": 0.3070508539676666,
      "learning_rate": 5e-05,
      "loss": 2.6495,
      "step": 6275
    },
    {
      "epoch": 0.30640818524501884,
      "grad_norm": 0.3194222152233124,
      "learning_rate": 5e-05,
      "loss": 1.8887,
      "step": 6276
    },
    {
      "epoch": 0.30654281098546043,
      "grad_norm": 0.2578650116920471,
      "learning_rate": 5e-05,
      "loss": 1.9107,
      "step": 6277
    },
    {
      "epoch": 0.306677436725902,
      "grad_norm": 0.27057355642318726,
      "learning_rate": 5e-05,
      "loss": 2.2212,
      "step": 6278
    },
    {
      "epoch": 0.30681206246634357,
      "grad_norm": 0.28181660175323486,
      "learning_rate": 5e-05,
      "loss": 2.1594,
      "step": 6279
    },
    {
      "epoch": 0.3069466882067851,
      "grad_norm": 0.34539785981178284,
      "learning_rate": 5e-05,
      "loss": 2.4835,
      "step": 6280
    },
    {
      "epoch": 0.3070813139472267,
      "grad_norm": 0.24411486089229584,
      "learning_rate": 5e-05,
      "loss": 1.6963,
      "step": 6281
    },
    {
      "epoch": 0.3072159396876683,
      "grad_norm": 0.28388920426368713,
      "learning_rate": 5e-05,
      "loss": 1.8437,
      "step": 6282
    },
    {
      "epoch": 0.30735056542810985,
      "grad_norm": 0.2780574560165405,
      "learning_rate": 5e-05,
      "loss": 2.0751,
      "step": 6283
    },
    {
      "epoch": 0.30748519116855144,
      "grad_norm": 0.26527610421180725,
      "learning_rate": 5e-05,
      "loss": 2.0042,
      "step": 6284
    },
    {
      "epoch": 0.307619816908993,
      "grad_norm": 0.2745760977268219,
      "learning_rate": 5e-05,
      "loss": 2.3482,
      "step": 6285
    },
    {
      "epoch": 0.3077544426494346,
      "grad_norm": 0.262687623500824,
      "learning_rate": 5e-05,
      "loss": 1.5715,
      "step": 6286
    },
    {
      "epoch": 0.3078890683898761,
      "grad_norm": 0.285092830657959,
      "learning_rate": 5e-05,
      "loss": 1.9616,
      "step": 6287
    },
    {
      "epoch": 0.3080236941303177,
      "grad_norm": 0.2892715036869049,
      "learning_rate": 5e-05,
      "loss": 1.8091,
      "step": 6288
    },
    {
      "epoch": 0.3081583198707593,
      "grad_norm": 0.28065285086631775,
      "learning_rate": 5e-05,
      "loss": 2.0485,
      "step": 6289
    },
    {
      "epoch": 0.30829294561120085,
      "grad_norm": 0.28963780403137207,
      "learning_rate": 5e-05,
      "loss": 1.7788,
      "step": 6290
    },
    {
      "epoch": 0.30842757135164245,
      "grad_norm": 0.2750932574272156,
      "learning_rate": 5e-05,
      "loss": 1.8049,
      "step": 6291
    },
    {
      "epoch": 0.308562197092084,
      "grad_norm": 0.26478031277656555,
      "learning_rate": 5e-05,
      "loss": 1.9435,
      "step": 6292
    },
    {
      "epoch": 0.3086968228325256,
      "grad_norm": 0.28349027037620544,
      "learning_rate": 5e-05,
      "loss": 1.9785,
      "step": 6293
    },
    {
      "epoch": 0.3088314485729671,
      "grad_norm": 0.3058239221572876,
      "learning_rate": 5e-05,
      "loss": 2.3633,
      "step": 6294
    },
    {
      "epoch": 0.3089660743134087,
      "grad_norm": 0.2715589702129364,
      "learning_rate": 5e-05,
      "loss": 1.8074,
      "step": 6295
    },
    {
      "epoch": 0.3091007000538503,
      "grad_norm": 0.2745830714702606,
      "learning_rate": 5e-05,
      "loss": 1.7198,
      "step": 6296
    },
    {
      "epoch": 0.30923532579429186,
      "grad_norm": 0.2715807259082794,
      "learning_rate": 5e-05,
      "loss": 1.8203,
      "step": 6297
    },
    {
      "epoch": 0.30936995153473346,
      "grad_norm": 0.260237455368042,
      "learning_rate": 5e-05,
      "loss": 1.8025,
      "step": 6298
    },
    {
      "epoch": 0.309504577275175,
      "grad_norm": 0.29023048281669617,
      "learning_rate": 5e-05,
      "loss": 1.7592,
      "step": 6299
    },
    {
      "epoch": 0.3096392030156166,
      "grad_norm": 0.2822721600532532,
      "learning_rate": 5e-05,
      "loss": 2.2354,
      "step": 6300
    },
    {
      "epoch": 0.30977382875605813,
      "grad_norm": 0.26289039850234985,
      "learning_rate": 5e-05,
      "loss": 1.7883,
      "step": 6301
    },
    {
      "epoch": 0.30990845449649973,
      "grad_norm": 0.27735719084739685,
      "learning_rate": 5e-05,
      "loss": 2.2238,
      "step": 6302
    },
    {
      "epoch": 0.3100430802369413,
      "grad_norm": 0.26631268858909607,
      "learning_rate": 5e-05,
      "loss": 1.9709,
      "step": 6303
    },
    {
      "epoch": 0.31017770597738287,
      "grad_norm": 0.37933149933815,
      "learning_rate": 5e-05,
      "loss": 3.1468,
      "step": 6304
    },
    {
      "epoch": 0.31031233171782446,
      "grad_norm": 0.2962490916252136,
      "learning_rate": 5e-05,
      "loss": 2.7601,
      "step": 6305
    },
    {
      "epoch": 0.310446957458266,
      "grad_norm": 0.27980270981788635,
      "learning_rate": 5e-05,
      "loss": 1.7561,
      "step": 6306
    },
    {
      "epoch": 0.3105815831987076,
      "grad_norm": 0.2806161344051361,
      "learning_rate": 5e-05,
      "loss": 1.8971,
      "step": 6307
    },
    {
      "epoch": 0.31071620893914914,
      "grad_norm": 0.27848145365715027,
      "learning_rate": 5e-05,
      "loss": 1.6599,
      "step": 6308
    },
    {
      "epoch": 0.31085083467959074,
      "grad_norm": 0.28533080220222473,
      "learning_rate": 5e-05,
      "loss": 2.4881,
      "step": 6309
    },
    {
      "epoch": 0.31098546042003233,
      "grad_norm": 0.2620363235473633,
      "learning_rate": 5e-05,
      "loss": 1.7346,
      "step": 6310
    },
    {
      "epoch": 0.3111200861604739,
      "grad_norm": 0.297811359167099,
      "learning_rate": 5e-05,
      "loss": 1.9078,
      "step": 6311
    },
    {
      "epoch": 0.31125471190091547,
      "grad_norm": 0.26927095651626587,
      "learning_rate": 5e-05,
      "loss": 1.702,
      "step": 6312
    },
    {
      "epoch": 0.311389337641357,
      "grad_norm": 0.2664153277873993,
      "learning_rate": 5e-05,
      "loss": 2.6471,
      "step": 6313
    },
    {
      "epoch": 0.3115239633817986,
      "grad_norm": 0.33869317173957825,
      "learning_rate": 5e-05,
      "loss": 3.2347,
      "step": 6314
    },
    {
      "epoch": 0.31165858912224015,
      "grad_norm": 0.3036767244338989,
      "learning_rate": 5e-05,
      "loss": 2.2405,
      "step": 6315
    },
    {
      "epoch": 0.31179321486268174,
      "grad_norm": 0.34715384244918823,
      "learning_rate": 5e-05,
      "loss": 3.1984,
      "step": 6316
    },
    {
      "epoch": 0.31192784060312334,
      "grad_norm": 0.27124130725860596,
      "learning_rate": 5e-05,
      "loss": 1.8196,
      "step": 6317
    },
    {
      "epoch": 0.3120624663435649,
      "grad_norm": 0.4022608697414398,
      "learning_rate": 5e-05,
      "loss": 2.458,
      "step": 6318
    },
    {
      "epoch": 0.3121970920840065,
      "grad_norm": 0.2669844925403595,
      "learning_rate": 5e-05,
      "loss": 1.863,
      "step": 6319
    },
    {
      "epoch": 0.312331717824448,
      "grad_norm": 0.26510369777679443,
      "learning_rate": 5e-05,
      "loss": 1.5792,
      "step": 6320
    },
    {
      "epoch": 0.3124663435648896,
      "grad_norm": 0.2921935021877289,
      "learning_rate": 5e-05,
      "loss": 2.1004,
      "step": 6321
    },
    {
      "epoch": 0.31260096930533116,
      "grad_norm": 0.26260316371917725,
      "learning_rate": 5e-05,
      "loss": 1.6511,
      "step": 6322
    },
    {
      "epoch": 0.31273559504577275,
      "grad_norm": 0.35121816396713257,
      "learning_rate": 5e-05,
      "loss": 2.6708,
      "step": 6323
    },
    {
      "epoch": 0.31287022078621435,
      "grad_norm": 0.28087738156318665,
      "learning_rate": 5e-05,
      "loss": 1.7754,
      "step": 6324
    },
    {
      "epoch": 0.3130048465266559,
      "grad_norm": 0.2660277485847473,
      "learning_rate": 5e-05,
      "loss": 1.8715,
      "step": 6325
    },
    {
      "epoch": 0.3131394722670975,
      "grad_norm": 0.29700252413749695,
      "learning_rate": 5e-05,
      "loss": 1.6273,
      "step": 6326
    },
    {
      "epoch": 0.313274098007539,
      "grad_norm": 0.26067307591438293,
      "learning_rate": 5e-05,
      "loss": 1.5897,
      "step": 6327
    },
    {
      "epoch": 0.3134087237479806,
      "grad_norm": 0.27964380383491516,
      "learning_rate": 5e-05,
      "loss": 1.9365,
      "step": 6328
    },
    {
      "epoch": 0.31354334948842216,
      "grad_norm": 0.28508269786834717,
      "learning_rate": 5e-05,
      "loss": 1.7538,
      "step": 6329
    },
    {
      "epoch": 0.31367797522886376,
      "grad_norm": 0.34224310517311096,
      "learning_rate": 5e-05,
      "loss": 2.2742,
      "step": 6330
    },
    {
      "epoch": 0.31381260096930536,
      "grad_norm": 0.30035027861595154,
      "learning_rate": 5e-05,
      "loss": 2.4563,
      "step": 6331
    },
    {
      "epoch": 0.3139472267097469,
      "grad_norm": 0.2757395803928375,
      "learning_rate": 5e-05,
      "loss": 2.1192,
      "step": 6332
    },
    {
      "epoch": 0.3140818524501885,
      "grad_norm": 0.32980817556381226,
      "learning_rate": 5e-05,
      "loss": 2.6705,
      "step": 6333
    },
    {
      "epoch": 0.31421647819063003,
      "grad_norm": 0.3041858375072479,
      "learning_rate": 5e-05,
      "loss": 2.6782,
      "step": 6334
    },
    {
      "epoch": 0.31435110393107163,
      "grad_norm": 0.2753298282623291,
      "learning_rate": 5e-05,
      "loss": 2.3106,
      "step": 6335
    },
    {
      "epoch": 0.31448572967151317,
      "grad_norm": 0.2575109601020813,
      "learning_rate": 5e-05,
      "loss": 1.6341,
      "step": 6336
    },
    {
      "epoch": 0.31462035541195477,
      "grad_norm": 0.2667608857154846,
      "learning_rate": 5e-05,
      "loss": 1.808,
      "step": 6337
    },
    {
      "epoch": 0.31475498115239636,
      "grad_norm": 0.24748577177524567,
      "learning_rate": 5e-05,
      "loss": 1.6188,
      "step": 6338
    },
    {
      "epoch": 0.3148896068928379,
      "grad_norm": 0.2732275724411011,
      "learning_rate": 5e-05,
      "loss": 2.4933,
      "step": 6339
    },
    {
      "epoch": 0.3150242326332795,
      "grad_norm": 0.371067076921463,
      "learning_rate": 5e-05,
      "loss": 2.061,
      "step": 6340
    },
    {
      "epoch": 0.31515885837372104,
      "grad_norm": 0.2706127464771271,
      "learning_rate": 5e-05,
      "loss": 1.841,
      "step": 6341
    },
    {
      "epoch": 0.31529348411416264,
      "grad_norm": 0.286008358001709,
      "learning_rate": 5e-05,
      "loss": 3.0989,
      "step": 6342
    },
    {
      "epoch": 0.3154281098546042,
      "grad_norm": 0.26820841431617737,
      "learning_rate": 5e-05,
      "loss": 1.7509,
      "step": 6343
    },
    {
      "epoch": 0.3155627355950458,
      "grad_norm": 0.25672048330307007,
      "learning_rate": 5e-05,
      "loss": 1.5377,
      "step": 6344
    },
    {
      "epoch": 0.31569736133548737,
      "grad_norm": 0.2760881781578064,
      "learning_rate": 5e-05,
      "loss": 1.8922,
      "step": 6345
    },
    {
      "epoch": 0.3158319870759289,
      "grad_norm": 0.29712438583374023,
      "learning_rate": 5e-05,
      "loss": 1.8752,
      "step": 6346
    },
    {
      "epoch": 0.3159666128163705,
      "grad_norm": 0.27671900391578674,
      "learning_rate": 5e-05,
      "loss": 1.7277,
      "step": 6347
    },
    {
      "epoch": 0.31610123855681205,
      "grad_norm": 0.2738201916217804,
      "learning_rate": 5e-05,
      "loss": 2.0148,
      "step": 6348
    },
    {
      "epoch": 0.31623586429725364,
      "grad_norm": 0.2575680911540985,
      "learning_rate": 5e-05,
      "loss": 1.7053,
      "step": 6349
    },
    {
      "epoch": 0.3163704900376952,
      "grad_norm": 0.2735741436481476,
      "learning_rate": 5e-05,
      "loss": 2.008,
      "step": 6350
    },
    {
      "epoch": 0.3165051157781368,
      "grad_norm": 0.2760812044143677,
      "learning_rate": 5e-05,
      "loss": 2.1388,
      "step": 6351
    },
    {
      "epoch": 0.3166397415185784,
      "grad_norm": 0.37564021348953247,
      "learning_rate": 5e-05,
      "loss": 3.005,
      "step": 6352
    },
    {
      "epoch": 0.3167743672590199,
      "grad_norm": 0.2694794535636902,
      "learning_rate": 5e-05,
      "loss": 1.8791,
      "step": 6353
    },
    {
      "epoch": 0.3169089929994615,
      "grad_norm": 0.3108721971511841,
      "learning_rate": 5e-05,
      "loss": 2.5434,
      "step": 6354
    },
    {
      "epoch": 0.31704361873990305,
      "grad_norm": 0.282775342464447,
      "learning_rate": 5e-05,
      "loss": 2.7724,
      "step": 6355
    },
    {
      "epoch": 0.31717824448034465,
      "grad_norm": 0.29148250818252563,
      "learning_rate": 5e-05,
      "loss": 2.3523,
      "step": 6356
    },
    {
      "epoch": 0.3173128702207862,
      "grad_norm": 0.2675449252128601,
      "learning_rate": 5e-05,
      "loss": 1.9052,
      "step": 6357
    },
    {
      "epoch": 0.3174474959612278,
      "grad_norm": 0.27796661853790283,
      "learning_rate": 5e-05,
      "loss": 2.0056,
      "step": 6358
    },
    {
      "epoch": 0.3175821217016694,
      "grad_norm": 0.27235642075538635,
      "learning_rate": 5e-05,
      "loss": 2.0076,
      "step": 6359
    },
    {
      "epoch": 0.3177167474421109,
      "grad_norm": 0.26832541823387146,
      "learning_rate": 5e-05,
      "loss": 1.7815,
      "step": 6360
    },
    {
      "epoch": 0.3178513731825525,
      "grad_norm": 0.2842428386211395,
      "learning_rate": 5e-05,
      "loss": 1.9341,
      "step": 6361
    },
    {
      "epoch": 0.31798599892299406,
      "grad_norm": 0.272735059261322,
      "learning_rate": 5e-05,
      "loss": 1.7471,
      "step": 6362
    },
    {
      "epoch": 0.31812062466343566,
      "grad_norm": 0.2824844717979431,
      "learning_rate": 5e-05,
      "loss": 2.2759,
      "step": 6363
    },
    {
      "epoch": 0.3182552504038772,
      "grad_norm": 0.2657826542854309,
      "learning_rate": 5e-05,
      "loss": 1.8953,
      "step": 6364
    },
    {
      "epoch": 0.3183898761443188,
      "grad_norm": 0.26638293266296387,
      "learning_rate": 5e-05,
      "loss": 2.2932,
      "step": 6365
    },
    {
      "epoch": 0.3185245018847604,
      "grad_norm": 0.27295616269111633,
      "learning_rate": 5e-05,
      "loss": 2.0173,
      "step": 6366
    },
    {
      "epoch": 0.31865912762520193,
      "grad_norm": 0.282905250787735,
      "learning_rate": 5e-05,
      "loss": 2.0494,
      "step": 6367
    },
    {
      "epoch": 0.31879375336564353,
      "grad_norm": 0.2832483649253845,
      "learning_rate": 5e-05,
      "loss": 1.8412,
      "step": 6368
    },
    {
      "epoch": 0.31892837910608507,
      "grad_norm": 0.27927878499031067,
      "learning_rate": 5e-05,
      "loss": 1.8812,
      "step": 6369
    },
    {
      "epoch": 0.31906300484652667,
      "grad_norm": 0.26530763506889343,
      "learning_rate": 5e-05,
      "loss": 1.8373,
      "step": 6370
    },
    {
      "epoch": 0.3191976305869682,
      "grad_norm": 0.2691534161567688,
      "learning_rate": 5e-05,
      "loss": 2.0197,
      "step": 6371
    },
    {
      "epoch": 0.3193322563274098,
      "grad_norm": 0.2587471306324005,
      "learning_rate": 5e-05,
      "loss": 1.8313,
      "step": 6372
    },
    {
      "epoch": 0.3194668820678514,
      "grad_norm": 0.30733171105384827,
      "learning_rate": 5e-05,
      "loss": 2.1223,
      "step": 6373
    },
    {
      "epoch": 0.31960150780829294,
      "grad_norm": 0.2900674343109131,
      "learning_rate": 5e-05,
      "loss": 2.0415,
      "step": 6374
    },
    {
      "epoch": 0.31973613354873454,
      "grad_norm": 0.2530076205730438,
      "learning_rate": 5e-05,
      "loss": 1.9364,
      "step": 6375
    },
    {
      "epoch": 0.3198707592891761,
      "grad_norm": 0.2947022616863251,
      "learning_rate": 5e-05,
      "loss": 1.8791,
      "step": 6376
    },
    {
      "epoch": 0.3200053850296177,
      "grad_norm": 0.2714209258556366,
      "learning_rate": 5e-05,
      "loss": 1.7686,
      "step": 6377
    },
    {
      "epoch": 0.3201400107700592,
      "grad_norm": 0.31297773122787476,
      "learning_rate": 5e-05,
      "loss": 2.6711,
      "step": 6378
    },
    {
      "epoch": 0.3202746365105008,
      "grad_norm": 0.3173240125179291,
      "learning_rate": 5e-05,
      "loss": 3.0891,
      "step": 6379
    },
    {
      "epoch": 0.3204092622509424,
      "grad_norm": 0.27142053842544556,
      "learning_rate": 5e-05,
      "loss": 1.6362,
      "step": 6380
    },
    {
      "epoch": 0.32054388799138395,
      "grad_norm": 0.29348427057266235,
      "learning_rate": 5e-05,
      "loss": 2.0287,
      "step": 6381
    },
    {
      "epoch": 0.32067851373182554,
      "grad_norm": 0.3193427324295044,
      "learning_rate": 5e-05,
      "loss": 2.0802,
      "step": 6382
    },
    {
      "epoch": 0.3208131394722671,
      "grad_norm": 0.2920490801334381,
      "learning_rate": 5e-05,
      "loss": 2.1428,
      "step": 6383
    },
    {
      "epoch": 0.3209477652127087,
      "grad_norm": 0.26105961203575134,
      "learning_rate": 5e-05,
      "loss": 1.6904,
      "step": 6384
    },
    {
      "epoch": 0.3210823909531502,
      "grad_norm": 0.28859877586364746,
      "learning_rate": 5e-05,
      "loss": 2.3075,
      "step": 6385
    },
    {
      "epoch": 0.3212170166935918,
      "grad_norm": 0.27156496047973633,
      "learning_rate": 5e-05,
      "loss": 1.5337,
      "step": 6386
    },
    {
      "epoch": 0.3213516424340334,
      "grad_norm": 0.3189902901649475,
      "learning_rate": 5e-05,
      "loss": 2.2564,
      "step": 6387
    },
    {
      "epoch": 0.32148626817447495,
      "grad_norm": 0.3413362503051758,
      "learning_rate": 5e-05,
      "loss": 2.5868,
      "step": 6388
    },
    {
      "epoch": 0.32162089391491655,
      "grad_norm": 0.2635496258735657,
      "learning_rate": 5e-05,
      "loss": 1.9089,
      "step": 6389
    },
    {
      "epoch": 0.3217555196553581,
      "grad_norm": 0.27471768856048584,
      "learning_rate": 5e-05,
      "loss": 1.6348,
      "step": 6390
    },
    {
      "epoch": 0.3218901453957997,
      "grad_norm": 0.27279770374298096,
      "learning_rate": 5e-05,
      "loss": 1.8013,
      "step": 6391
    },
    {
      "epoch": 0.32202477113624123,
      "grad_norm": 0.2832123041152954,
      "learning_rate": 5e-05,
      "loss": 2.096,
      "step": 6392
    },
    {
      "epoch": 0.3221593968766828,
      "grad_norm": 0.3946371376514435,
      "learning_rate": 5e-05,
      "loss": 3.6612,
      "step": 6393
    },
    {
      "epoch": 0.3222940226171244,
      "grad_norm": 0.3398222029209137,
      "learning_rate": 5e-05,
      "loss": 2.372,
      "step": 6394
    },
    {
      "epoch": 0.32242864835756596,
      "grad_norm": 0.3057284355163574,
      "learning_rate": 5e-05,
      "loss": 2.009,
      "step": 6395
    },
    {
      "epoch": 0.32256327409800756,
      "grad_norm": 0.3078908622264862,
      "learning_rate": 5e-05,
      "loss": 2.2461,
      "step": 6396
    },
    {
      "epoch": 0.3226978998384491,
      "grad_norm": 0.26589539647102356,
      "learning_rate": 5e-05,
      "loss": 1.7724,
      "step": 6397
    },
    {
      "epoch": 0.3228325255788907,
      "grad_norm": 0.29790571331977844,
      "learning_rate": 5e-05,
      "loss": 2.0307,
      "step": 6398
    },
    {
      "epoch": 0.32296715131933224,
      "grad_norm": 0.26679834723472595,
      "learning_rate": 5e-05,
      "loss": 1.8433,
      "step": 6399
    },
    {
      "epoch": 0.32310177705977383,
      "grad_norm": 0.2605455815792084,
      "learning_rate": 5e-05,
      "loss": 1.7454,
      "step": 6400
    },
    {
      "epoch": 0.3232364028002154,
      "grad_norm": 0.3316175937652588,
      "learning_rate": 5e-05,
      "loss": 2.7123,
      "step": 6401
    },
    {
      "epoch": 0.32337102854065697,
      "grad_norm": 0.3211674690246582,
      "learning_rate": 5e-05,
      "loss": 2.5591,
      "step": 6402
    },
    {
      "epoch": 0.32350565428109856,
      "grad_norm": 0.2941223084926605,
      "learning_rate": 5e-05,
      "loss": 2.4105,
      "step": 6403
    },
    {
      "epoch": 0.3236402800215401,
      "grad_norm": 0.27053117752075195,
      "learning_rate": 5e-05,
      "loss": 1.8971,
      "step": 6404
    },
    {
      "epoch": 0.3237749057619817,
      "grad_norm": 0.2798560857772827,
      "learning_rate": 5e-05,
      "loss": 1.7946,
      "step": 6405
    },
    {
      "epoch": 0.32390953150242324,
      "grad_norm": 0.29531946778297424,
      "learning_rate": 5e-05,
      "loss": 2.0541,
      "step": 6406
    },
    {
      "epoch": 0.32404415724286484,
      "grad_norm": 0.27097657322883606,
      "learning_rate": 5e-05,
      "loss": 1.865,
      "step": 6407
    },
    {
      "epoch": 0.32417878298330643,
      "grad_norm": 0.27900853753089905,
      "learning_rate": 5e-05,
      "loss": 1.942,
      "step": 6408
    },
    {
      "epoch": 0.324313408723748,
      "grad_norm": 0.27044573426246643,
      "learning_rate": 5e-05,
      "loss": 2.0163,
      "step": 6409
    },
    {
      "epoch": 0.32444803446418957,
      "grad_norm": 0.2761622965335846,
      "learning_rate": 5e-05,
      "loss": 1.6713,
      "step": 6410
    },
    {
      "epoch": 0.3245826602046311,
      "grad_norm": 0.26127108931541443,
      "learning_rate": 5e-05,
      "loss": 2.0136,
      "step": 6411
    },
    {
      "epoch": 0.3247172859450727,
      "grad_norm": 0.30083590745925903,
      "learning_rate": 5e-05,
      "loss": 2.239,
      "step": 6412
    },
    {
      "epoch": 0.32485191168551425,
      "grad_norm": 0.28975287079811096,
      "learning_rate": 5e-05,
      "loss": 1.8861,
      "step": 6413
    },
    {
      "epoch": 0.32498653742595585,
      "grad_norm": 0.2967359721660614,
      "learning_rate": 5e-05,
      "loss": 2.0611,
      "step": 6414
    },
    {
      "epoch": 0.32512116316639744,
      "grad_norm": 0.2901862859725952,
      "learning_rate": 5e-05,
      "loss": 2.1687,
      "step": 6415
    },
    {
      "epoch": 0.325255788906839,
      "grad_norm": 0.27696192264556885,
      "learning_rate": 5e-05,
      "loss": 2.3205,
      "step": 6416
    },
    {
      "epoch": 0.3253904146472806,
      "grad_norm": 0.2681324779987335,
      "learning_rate": 5e-05,
      "loss": 1.8926,
      "step": 6417
    },
    {
      "epoch": 0.3255250403877221,
      "grad_norm": 0.27607980370521545,
      "learning_rate": 5e-05,
      "loss": 1.9214,
      "step": 6418
    },
    {
      "epoch": 0.3256596661281637,
      "grad_norm": 0.25545698404312134,
      "learning_rate": 5e-05,
      "loss": 1.8294,
      "step": 6419
    },
    {
      "epoch": 0.32579429186860526,
      "grad_norm": 0.27235040068626404,
      "learning_rate": 5e-05,
      "loss": 1.8353,
      "step": 6420
    },
    {
      "epoch": 0.32592891760904685,
      "grad_norm": 0.2691310942173004,
      "learning_rate": 5e-05,
      "loss": 1.8782,
      "step": 6421
    },
    {
      "epoch": 0.32606354334948845,
      "grad_norm": 0.31335312128067017,
      "learning_rate": 5e-05,
      "loss": 2.5284,
      "step": 6422
    },
    {
      "epoch": 0.32619816908993,
      "grad_norm": 0.25156041979789734,
      "learning_rate": 5e-05,
      "loss": 1.6896,
      "step": 6423
    },
    {
      "epoch": 0.3263327948303716,
      "grad_norm": 0.2611592710018158,
      "learning_rate": 5e-05,
      "loss": 2.0373,
      "step": 6424
    },
    {
      "epoch": 0.3264674205708131,
      "grad_norm": 0.27070698142051697,
      "learning_rate": 5e-05,
      "loss": 1.6578,
      "step": 6425
    },
    {
      "epoch": 0.3266020463112547,
      "grad_norm": 0.2800689935684204,
      "learning_rate": 5e-05,
      "loss": 1.9576,
      "step": 6426
    },
    {
      "epoch": 0.32673667205169626,
      "grad_norm": 0.26073887944221497,
      "learning_rate": 5e-05,
      "loss": 1.7363,
      "step": 6427
    },
    {
      "epoch": 0.32687129779213786,
      "grad_norm": 0.2841581106185913,
      "learning_rate": 5e-05,
      "loss": 2.0034,
      "step": 6428
    },
    {
      "epoch": 0.32700592353257946,
      "grad_norm": 0.27912428975105286,
      "learning_rate": 5e-05,
      "loss": 2.4165,
      "step": 6429
    },
    {
      "epoch": 0.327140549273021,
      "grad_norm": 0.3187749981880188,
      "learning_rate": 5e-05,
      "loss": 2.5589,
      "step": 6430
    },
    {
      "epoch": 0.3272751750134626,
      "grad_norm": 0.32344093918800354,
      "learning_rate": 5e-05,
      "loss": 2.64,
      "step": 6431
    },
    {
      "epoch": 0.32740980075390413,
      "grad_norm": 0.2776166498661041,
      "learning_rate": 5e-05,
      "loss": 1.9216,
      "step": 6432
    },
    {
      "epoch": 0.32754442649434573,
      "grad_norm": 0.5380949974060059,
      "learning_rate": 5e-05,
      "loss": 3.722,
      "step": 6433
    },
    {
      "epoch": 0.32767905223478727,
      "grad_norm": 0.27904608845710754,
      "learning_rate": 5e-05,
      "loss": 1.9282,
      "step": 6434
    },
    {
      "epoch": 0.32781367797522887,
      "grad_norm": 0.4714827835559845,
      "learning_rate": 5e-05,
      "loss": 3.751,
      "step": 6435
    },
    {
      "epoch": 0.32794830371567046,
      "grad_norm": 0.25628146529197693,
      "learning_rate": 5e-05,
      "loss": 1.6521,
      "step": 6436
    },
    {
      "epoch": 0.328082929456112,
      "grad_norm": 0.2600264847278595,
      "learning_rate": 5e-05,
      "loss": 1.9792,
      "step": 6437
    },
    {
      "epoch": 0.3282175551965536,
      "grad_norm": 0.26735156774520874,
      "learning_rate": 5e-05,
      "loss": 1.8732,
      "step": 6438
    },
    {
      "epoch": 0.32835218093699514,
      "grad_norm": 0.31332477927207947,
      "learning_rate": 5e-05,
      "loss": 2.1465,
      "step": 6439
    },
    {
      "epoch": 0.32848680667743674,
      "grad_norm": 0.29760709404945374,
      "learning_rate": 5e-05,
      "loss": 2.2435,
      "step": 6440
    },
    {
      "epoch": 0.3286214324178783,
      "grad_norm": 0.26434198021888733,
      "learning_rate": 5e-05,
      "loss": 2.1048,
      "step": 6441
    },
    {
      "epoch": 0.3287560581583199,
      "grad_norm": 0.29888036847114563,
      "learning_rate": 5e-05,
      "loss": 1.7384,
      "step": 6442
    },
    {
      "epoch": 0.3288906838987614,
      "grad_norm": 0.28666266798973083,
      "learning_rate": 5e-05,
      "loss": 1.9994,
      "step": 6443
    },
    {
      "epoch": 0.329025309639203,
      "grad_norm": 0.30945393443107605,
      "learning_rate": 5e-05,
      "loss": 2.9876,
      "step": 6444
    },
    {
      "epoch": 0.3291599353796446,
      "grad_norm": 0.2576567530632019,
      "learning_rate": 5e-05,
      "loss": 1.7139,
      "step": 6445
    },
    {
      "epoch": 0.32929456112008615,
      "grad_norm": 0.30672141909599304,
      "learning_rate": 5e-05,
      "loss": 1.9099,
      "step": 6446
    },
    {
      "epoch": 0.32942918686052775,
      "grad_norm": 0.34527093172073364,
      "learning_rate": 5e-05,
      "loss": 2.1261,
      "step": 6447
    },
    {
      "epoch": 0.3295638126009693,
      "grad_norm": 0.2923848032951355,
      "learning_rate": 5e-05,
      "loss": 1.7914,
      "step": 6448
    },
    {
      "epoch": 0.3296984383414109,
      "grad_norm": 0.2971179485321045,
      "learning_rate": 5e-05,
      "loss": 1.9177,
      "step": 6449
    },
    {
      "epoch": 0.3298330640818524,
      "grad_norm": 0.27414798736572266,
      "learning_rate": 5e-05,
      "loss": 2.1784,
      "step": 6450
    },
    {
      "epoch": 0.329967689822294,
      "grad_norm": 0.3763769865036011,
      "learning_rate": 5e-05,
      "loss": 2.8467,
      "step": 6451
    },
    {
      "epoch": 0.3301023155627356,
      "grad_norm": 0.2843688428401947,
      "learning_rate": 5e-05,
      "loss": 1.9242,
      "step": 6452
    },
    {
      "epoch": 0.33023694130317716,
      "grad_norm": 0.28019195795059204,
      "learning_rate": 5e-05,
      "loss": 1.8211,
      "step": 6453
    },
    {
      "epoch": 0.33037156704361875,
      "grad_norm": 0.2823168933391571,
      "learning_rate": 5e-05,
      "loss": 2.4028,
      "step": 6454
    },
    {
      "epoch": 0.3305061927840603,
      "grad_norm": 0.27522560954093933,
      "learning_rate": 5e-05,
      "loss": 3.342,
      "step": 6455
    },
    {
      "epoch": 0.3306408185245019,
      "grad_norm": 0.3059317171573639,
      "learning_rate": 5e-05,
      "loss": 2.0854,
      "step": 6456
    },
    {
      "epoch": 0.33077544426494343,
      "grad_norm": 0.2675715386867523,
      "learning_rate": 5e-05,
      "loss": 1.9327,
      "step": 6457
    },
    {
      "epoch": 0.330910070005385,
      "grad_norm": 0.2661944031715393,
      "learning_rate": 5e-05,
      "loss": 1.6537,
      "step": 6458
    },
    {
      "epoch": 0.3310446957458266,
      "grad_norm": 0.26718366146087646,
      "learning_rate": 5e-05,
      "loss": 1.6613,
      "step": 6459
    },
    {
      "epoch": 0.33117932148626816,
      "grad_norm": 0.261451780796051,
      "learning_rate": 5e-05,
      "loss": 1.7793,
      "step": 6460
    },
    {
      "epoch": 0.33131394722670976,
      "grad_norm": 0.325581431388855,
      "learning_rate": 5e-05,
      "loss": 1.9279,
      "step": 6461
    },
    {
      "epoch": 0.3314485729671513,
      "grad_norm": 0.30780741572380066,
      "learning_rate": 5e-05,
      "loss": 2.2608,
      "step": 6462
    },
    {
      "epoch": 0.3315831987075929,
      "grad_norm": 0.27142345905303955,
      "learning_rate": 5e-05,
      "loss": 1.7925,
      "step": 6463
    },
    {
      "epoch": 0.33171782444803444,
      "grad_norm": 0.2832520306110382,
      "learning_rate": 5e-05,
      "loss": 1.8121,
      "step": 6464
    },
    {
      "epoch": 0.33185245018847603,
      "grad_norm": 0.26823654770851135,
      "learning_rate": 5e-05,
      "loss": 2.2462,
      "step": 6465
    },
    {
      "epoch": 0.33198707592891763,
      "grad_norm": 0.27187174558639526,
      "learning_rate": 5e-05,
      "loss": 2.7522,
      "step": 6466
    },
    {
      "epoch": 0.33212170166935917,
      "grad_norm": 0.29576796293258667,
      "learning_rate": 5e-05,
      "loss": 2.2208,
      "step": 6467
    },
    {
      "epoch": 0.33225632740980077,
      "grad_norm": 0.27583396434783936,
      "learning_rate": 5e-05,
      "loss": 1.8927,
      "step": 6468
    },
    {
      "epoch": 0.3323909531502423,
      "grad_norm": 0.3491988480091095,
      "learning_rate": 5e-05,
      "loss": 2.2637,
      "step": 6469
    },
    {
      "epoch": 0.3325255788906839,
      "grad_norm": 0.30758628249168396,
      "learning_rate": 5e-05,
      "loss": 2.107,
      "step": 6470
    },
    {
      "epoch": 0.33266020463112544,
      "grad_norm": 0.2782078683376312,
      "learning_rate": 5e-05,
      "loss": 2.0562,
      "step": 6471
    },
    {
      "epoch": 0.33279483037156704,
      "grad_norm": 0.2781986892223358,
      "learning_rate": 5e-05,
      "loss": 1.7957,
      "step": 6472
    },
    {
      "epoch": 0.33292945611200864,
      "grad_norm": 0.27029433846473694,
      "learning_rate": 5e-05,
      "loss": 1.7592,
      "step": 6473
    },
    {
      "epoch": 0.3330640818524502,
      "grad_norm": 0.40101736783981323,
      "learning_rate": 5e-05,
      "loss": 3.1323,
      "step": 6474
    },
    {
      "epoch": 0.3331987075928918,
      "grad_norm": 0.270220547914505,
      "learning_rate": 5e-05,
      "loss": 1.8232,
      "step": 6475
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.27316948771476746,
      "learning_rate": 5e-05,
      "loss": 1.7221,
      "step": 6476
    },
    {
      "epoch": 0.3334679590737749,
      "grad_norm": 0.31424441933631897,
      "learning_rate": 5e-05,
      "loss": 2.7793,
      "step": 6477
    },
    {
      "epoch": 0.33360258481421645,
      "grad_norm": 0.29217517375946045,
      "learning_rate": 5e-05,
      "loss": 2.1727,
      "step": 6478
    },
    {
      "epoch": 0.33373721055465805,
      "grad_norm": 0.28436365723609924,
      "learning_rate": 5e-05,
      "loss": 2.3516,
      "step": 6479
    },
    {
      "epoch": 0.33387183629509964,
      "grad_norm": 0.3013731837272644,
      "learning_rate": 5e-05,
      "loss": 1.9242,
      "step": 6480
    },
    {
      "epoch": 0.3340064620355412,
      "grad_norm": 0.28748711943626404,
      "learning_rate": 5e-05,
      "loss": 1.9173,
      "step": 6481
    },
    {
      "epoch": 0.3341410877759828,
      "grad_norm": 0.2678898572921753,
      "learning_rate": 5e-05,
      "loss": 1.8747,
      "step": 6482
    },
    {
      "epoch": 0.3342757135164243,
      "grad_norm": 0.2733544409275055,
      "learning_rate": 5e-05,
      "loss": 1.8373,
      "step": 6483
    },
    {
      "epoch": 0.3344103392568659,
      "grad_norm": 0.28518304228782654,
      "learning_rate": 5e-05,
      "loss": 2.2553,
      "step": 6484
    },
    {
      "epoch": 0.33454496499730746,
      "grad_norm": 0.3329673409461975,
      "learning_rate": 5e-05,
      "loss": 2.6922,
      "step": 6485
    },
    {
      "epoch": 0.33467959073774906,
      "grad_norm": 0.2954215407371521,
      "learning_rate": 5e-05,
      "loss": 2.4874,
      "step": 6486
    },
    {
      "epoch": 0.33481421647819065,
      "grad_norm": 0.2711549997329712,
      "learning_rate": 5e-05,
      "loss": 1.9166,
      "step": 6487
    },
    {
      "epoch": 0.3349488422186322,
      "grad_norm": 0.24733607470989227,
      "learning_rate": 5e-05,
      "loss": 1.5029,
      "step": 6488
    },
    {
      "epoch": 0.3350834679590738,
      "grad_norm": 0.27258118987083435,
      "learning_rate": 5e-05,
      "loss": 1.8563,
      "step": 6489
    },
    {
      "epoch": 0.33521809369951533,
      "grad_norm": 0.36071377992630005,
      "learning_rate": 5e-05,
      "loss": 2.8781,
      "step": 6490
    },
    {
      "epoch": 0.3353527194399569,
      "grad_norm": 0.718380868434906,
      "learning_rate": 5e-05,
      "loss": 3.0427,
      "step": 6491
    },
    {
      "epoch": 0.33548734518039847,
      "grad_norm": 0.2912309169769287,
      "learning_rate": 5e-05,
      "loss": 1.9182,
      "step": 6492
    },
    {
      "epoch": 0.33562197092084006,
      "grad_norm": 0.2972168028354645,
      "learning_rate": 5e-05,
      "loss": 2.0664,
      "step": 6493
    },
    {
      "epoch": 0.33575659666128166,
      "grad_norm": 0.31970497965812683,
      "learning_rate": 5e-05,
      "loss": 2.0006,
      "step": 6494
    },
    {
      "epoch": 0.3358912224017232,
      "grad_norm": 0.28794869780540466,
      "learning_rate": 5e-05,
      "loss": 2.0499,
      "step": 6495
    },
    {
      "epoch": 0.3360258481421648,
      "grad_norm": 0.33377137780189514,
      "learning_rate": 5e-05,
      "loss": 2.9538,
      "step": 6496
    },
    {
      "epoch": 0.33616047388260634,
      "grad_norm": 0.3004031777381897,
      "learning_rate": 5e-05,
      "loss": 2.5813,
      "step": 6497
    },
    {
      "epoch": 0.33629509962304793,
      "grad_norm": 0.306009978055954,
      "learning_rate": 5e-05,
      "loss": 2.4375,
      "step": 6498
    },
    {
      "epoch": 0.3364297253634895,
      "grad_norm": 0.29524627327919006,
      "learning_rate": 5e-05,
      "loss": 1.9824,
      "step": 6499
    },
    {
      "epoch": 0.33656435110393107,
      "grad_norm": 0.3342234790325165,
      "learning_rate": 5e-05,
      "loss": 2.4278,
      "step": 6500
    },
    {
      "epoch": 0.33669897684437267,
      "grad_norm": 0.2958657443523407,
      "learning_rate": 5e-05,
      "loss": 2.0674,
      "step": 6501
    },
    {
      "epoch": 0.3368336025848142,
      "grad_norm": 0.2573966383934021,
      "learning_rate": 5e-05,
      "loss": 1.8585,
      "step": 6502
    },
    {
      "epoch": 0.3369682283252558,
      "grad_norm": 0.28293171525001526,
      "learning_rate": 5e-05,
      "loss": 1.8685,
      "step": 6503
    },
    {
      "epoch": 0.33710285406569734,
      "grad_norm": 0.278730183839798,
      "learning_rate": 5e-05,
      "loss": 1.7803,
      "step": 6504
    },
    {
      "epoch": 0.33723747980613894,
      "grad_norm": 0.25359833240509033,
      "learning_rate": 5e-05,
      "loss": 1.789,
      "step": 6505
    },
    {
      "epoch": 0.3373721055465805,
      "grad_norm": 0.27674272656440735,
      "learning_rate": 5e-05,
      "loss": 1.9443,
      "step": 6506
    },
    {
      "epoch": 0.3375067312870221,
      "grad_norm": 0.2985494136810303,
      "learning_rate": 5e-05,
      "loss": 2.6161,
      "step": 6507
    },
    {
      "epoch": 0.3376413570274637,
      "grad_norm": 0.2756492793560028,
      "learning_rate": 5e-05,
      "loss": 2.0859,
      "step": 6508
    },
    {
      "epoch": 0.3377759827679052,
      "grad_norm": 0.2926537096500397,
      "learning_rate": 5e-05,
      "loss": 2.2876,
      "step": 6509
    },
    {
      "epoch": 0.3379106085083468,
      "grad_norm": 0.2547733187675476,
      "learning_rate": 5e-05,
      "loss": 1.5693,
      "step": 6510
    },
    {
      "epoch": 0.33804523424878835,
      "grad_norm": 0.25513991713523865,
      "learning_rate": 5e-05,
      "loss": 1.6841,
      "step": 6511
    },
    {
      "epoch": 0.33817985998922995,
      "grad_norm": 0.2866267263889313,
      "learning_rate": 5e-05,
      "loss": 2.4268,
      "step": 6512
    },
    {
      "epoch": 0.3383144857296715,
      "grad_norm": 0.3167920708656311,
      "learning_rate": 5e-05,
      "loss": 2.4474,
      "step": 6513
    },
    {
      "epoch": 0.3384491114701131,
      "grad_norm": 0.2644417881965637,
      "learning_rate": 5e-05,
      "loss": 1.8464,
      "step": 6514
    },
    {
      "epoch": 0.3385837372105547,
      "grad_norm": 0.25719577074050903,
      "learning_rate": 5e-05,
      "loss": 1.4782,
      "step": 6515
    },
    {
      "epoch": 0.3387183629509962,
      "grad_norm": 0.27439266443252563,
      "learning_rate": 5e-05,
      "loss": 1.8203,
      "step": 6516
    },
    {
      "epoch": 0.3388529886914378,
      "grad_norm": 0.2853950262069702,
      "learning_rate": 5e-05,
      "loss": 2.0532,
      "step": 6517
    },
    {
      "epoch": 0.33898761443187936,
      "grad_norm": 0.2518512010574341,
      "learning_rate": 5e-05,
      "loss": 1.8388,
      "step": 6518
    },
    {
      "epoch": 0.33912224017232095,
      "grad_norm": 0.3740622103214264,
      "learning_rate": 5e-05,
      "loss": 2.9168,
      "step": 6519
    },
    {
      "epoch": 0.3392568659127625,
      "grad_norm": 0.25115591287612915,
      "learning_rate": 5e-05,
      "loss": 1.6742,
      "step": 6520
    },
    {
      "epoch": 0.3393914916532041,
      "grad_norm": 0.3138423562049866,
      "learning_rate": 5e-05,
      "loss": 1.8963,
      "step": 6521
    },
    {
      "epoch": 0.3395261173936457,
      "grad_norm": 0.2545338273048401,
      "learning_rate": 5e-05,
      "loss": 1.7931,
      "step": 6522
    },
    {
      "epoch": 0.33966074313408723,
      "grad_norm": 0.2771380841732025,
      "learning_rate": 5e-05,
      "loss": 2.2831,
      "step": 6523
    },
    {
      "epoch": 0.3397953688745288,
      "grad_norm": 0.2480143904685974,
      "learning_rate": 5e-05,
      "loss": 1.5784,
      "step": 6524
    },
    {
      "epoch": 0.33992999461497037,
      "grad_norm": 0.2718406021595001,
      "learning_rate": 5e-05,
      "loss": 1.6624,
      "step": 6525
    },
    {
      "epoch": 0.34006462035541196,
      "grad_norm": 0.265144407749176,
      "learning_rate": 5e-05,
      "loss": 1.9966,
      "step": 6526
    },
    {
      "epoch": 0.3401992460958535,
      "grad_norm": 0.2711203396320343,
      "learning_rate": 5e-05,
      "loss": 1.8798,
      "step": 6527
    },
    {
      "epoch": 0.3403338718362951,
      "grad_norm": 0.28977420926094055,
      "learning_rate": 5e-05,
      "loss": 2.2434,
      "step": 6528
    },
    {
      "epoch": 0.3404684975767367,
      "grad_norm": 0.2783249020576477,
      "learning_rate": 5e-05,
      "loss": 2.0594,
      "step": 6529
    },
    {
      "epoch": 0.34060312331717824,
      "grad_norm": 0.4815306067466736,
      "learning_rate": 5e-05,
      "loss": 3.2317,
      "step": 6530
    },
    {
      "epoch": 0.34073774905761983,
      "grad_norm": 0.26681771874427795,
      "learning_rate": 5e-05,
      "loss": 1.9349,
      "step": 6531
    },
    {
      "epoch": 0.3408723747980614,
      "grad_norm": 0.29074960947036743,
      "learning_rate": 5e-05,
      "loss": 2.1255,
      "step": 6532
    },
    {
      "epoch": 0.34100700053850297,
      "grad_norm": 0.36708298325538635,
      "learning_rate": 5e-05,
      "loss": 2.3743,
      "step": 6533
    },
    {
      "epoch": 0.3411416262789445,
      "grad_norm": 0.3000375032424927,
      "learning_rate": 5e-05,
      "loss": 1.894,
      "step": 6534
    },
    {
      "epoch": 0.3412762520193861,
      "grad_norm": 0.27734580636024475,
      "learning_rate": 5e-05,
      "loss": 2.4877,
      "step": 6535
    },
    {
      "epoch": 0.3414108777598277,
      "grad_norm": 0.316211462020874,
      "learning_rate": 5e-05,
      "loss": 2.6957,
      "step": 6536
    },
    {
      "epoch": 0.34154550350026924,
      "grad_norm": 0.287509024143219,
      "learning_rate": 5e-05,
      "loss": 2.0105,
      "step": 6537
    },
    {
      "epoch": 0.34168012924071084,
      "grad_norm": 0.3430517613887787,
      "learning_rate": 5e-05,
      "loss": 3.1353,
      "step": 6538
    },
    {
      "epoch": 0.3418147549811524,
      "grad_norm": 0.32199373841285706,
      "learning_rate": 5e-05,
      "loss": 3.2405,
      "step": 6539
    },
    {
      "epoch": 0.341949380721594,
      "grad_norm": 0.26744648814201355,
      "learning_rate": 5e-05,
      "loss": 1.6241,
      "step": 6540
    },
    {
      "epoch": 0.3420840064620355,
      "grad_norm": 0.29305800795555115,
      "learning_rate": 5e-05,
      "loss": 2.4961,
      "step": 6541
    },
    {
      "epoch": 0.3422186322024771,
      "grad_norm": 0.2747640311717987,
      "learning_rate": 5e-05,
      "loss": 2.0024,
      "step": 6542
    },
    {
      "epoch": 0.3423532579429187,
      "grad_norm": 0.2830139696598053,
      "learning_rate": 5e-05,
      "loss": 1.87,
      "step": 6543
    },
    {
      "epoch": 0.34248788368336025,
      "grad_norm": 0.26407289505004883,
      "learning_rate": 5e-05,
      "loss": 1.645,
      "step": 6544
    },
    {
      "epoch": 0.34262250942380185,
      "grad_norm": 0.2715471088886261,
      "learning_rate": 5e-05,
      "loss": 1.5617,
      "step": 6545
    },
    {
      "epoch": 0.3427571351642434,
      "grad_norm": 0.260272741317749,
      "learning_rate": 5e-05,
      "loss": 1.7607,
      "step": 6546
    },
    {
      "epoch": 0.342891760904685,
      "grad_norm": 0.25772354006767273,
      "learning_rate": 5e-05,
      "loss": 1.9857,
      "step": 6547
    },
    {
      "epoch": 0.3430263866451265,
      "grad_norm": 0.27985286712646484,
      "learning_rate": 5e-05,
      "loss": 1.9203,
      "step": 6548
    },
    {
      "epoch": 0.3431610123855681,
      "grad_norm": 0.26414886116981506,
      "learning_rate": 5e-05,
      "loss": 1.4796,
      "step": 6549
    },
    {
      "epoch": 0.3432956381260097,
      "grad_norm": 0.2819180190563202,
      "learning_rate": 5e-05,
      "loss": 1.8731,
      "step": 6550
    },
    {
      "epoch": 0.34343026386645126,
      "grad_norm": 0.2653220295906067,
      "learning_rate": 5e-05,
      "loss": 1.6276,
      "step": 6551
    },
    {
      "epoch": 0.34356488960689285,
      "grad_norm": 0.28961870074272156,
      "learning_rate": 5e-05,
      "loss": 2.1766,
      "step": 6552
    },
    {
      "epoch": 0.3436995153473344,
      "grad_norm": 0.2588866353034973,
      "learning_rate": 5e-05,
      "loss": 1.8085,
      "step": 6553
    },
    {
      "epoch": 0.343834141087776,
      "grad_norm": 0.2897852659225464,
      "learning_rate": 5e-05,
      "loss": 2.0403,
      "step": 6554
    },
    {
      "epoch": 0.34396876682821753,
      "grad_norm": 0.637485146522522,
      "learning_rate": 5e-05,
      "loss": 2.8819,
      "step": 6555
    },
    {
      "epoch": 0.3441033925686591,
      "grad_norm": 0.3305319845676422,
      "learning_rate": 5e-05,
      "loss": 2.65,
      "step": 6556
    },
    {
      "epoch": 0.3442380183091007,
      "grad_norm": 0.25716274976730347,
      "learning_rate": 5e-05,
      "loss": 1.8823,
      "step": 6557
    },
    {
      "epoch": 0.34437264404954226,
      "grad_norm": 0.27542880177497864,
      "learning_rate": 5e-05,
      "loss": 1.7594,
      "step": 6558
    },
    {
      "epoch": 0.34450726978998386,
      "grad_norm": 0.28700682520866394,
      "learning_rate": 5e-05,
      "loss": 2.1371,
      "step": 6559
    },
    {
      "epoch": 0.3446418955304254,
      "grad_norm": 0.32412171363830566,
      "learning_rate": 5e-05,
      "loss": 3.0217,
      "step": 6560
    },
    {
      "epoch": 0.344776521270867,
      "grad_norm": 0.2702259421348572,
      "learning_rate": 5e-05,
      "loss": 2.0483,
      "step": 6561
    },
    {
      "epoch": 0.34491114701130854,
      "grad_norm": 0.2815839350223541,
      "learning_rate": 5e-05,
      "loss": 1.7364,
      "step": 6562
    },
    {
      "epoch": 0.34504577275175013,
      "grad_norm": 0.3047383725643158,
      "learning_rate": 5e-05,
      "loss": 2.575,
      "step": 6563
    },
    {
      "epoch": 0.34518039849219173,
      "grad_norm": 0.2783297300338745,
      "learning_rate": 5e-05,
      "loss": 1.6936,
      "step": 6564
    },
    {
      "epoch": 0.34531502423263327,
      "grad_norm": 0.27401021122932434,
      "learning_rate": 5e-05,
      "loss": 1.834,
      "step": 6565
    },
    {
      "epoch": 0.34544964997307487,
      "grad_norm": 0.2887490391731262,
      "learning_rate": 5e-05,
      "loss": 2.2952,
      "step": 6566
    },
    {
      "epoch": 0.3455842757135164,
      "grad_norm": 0.2759457528591156,
      "learning_rate": 5e-05,
      "loss": 2.0055,
      "step": 6567
    },
    {
      "epoch": 0.345718901453958,
      "grad_norm": 0.25915011763572693,
      "learning_rate": 5e-05,
      "loss": 1.7326,
      "step": 6568
    },
    {
      "epoch": 0.34585352719439955,
      "grad_norm": 0.26071691513061523,
      "learning_rate": 5e-05,
      "loss": 1.7872,
      "step": 6569
    },
    {
      "epoch": 0.34598815293484114,
      "grad_norm": 0.25807884335517883,
      "learning_rate": 5e-05,
      "loss": 1.695,
      "step": 6570
    },
    {
      "epoch": 0.34612277867528274,
      "grad_norm": 0.2903513014316559,
      "learning_rate": 5e-05,
      "loss": 1.8332,
      "step": 6571
    },
    {
      "epoch": 0.3462574044157243,
      "grad_norm": 0.28746646642684937,
      "learning_rate": 5e-05,
      "loss": 2.1243,
      "step": 6572
    },
    {
      "epoch": 0.3463920301561659,
      "grad_norm": 0.3241131901741028,
      "learning_rate": 5e-05,
      "loss": 3.0344,
      "step": 6573
    },
    {
      "epoch": 0.3465266558966074,
      "grad_norm": 0.26851776242256165,
      "learning_rate": 5e-05,
      "loss": 1.9117,
      "step": 6574
    },
    {
      "epoch": 0.346661281637049,
      "grad_norm": 0.28702831268310547,
      "learning_rate": 5e-05,
      "loss": 1.8563,
      "step": 6575
    },
    {
      "epoch": 0.34679590737749055,
      "grad_norm": 0.2857326865196228,
      "learning_rate": 5e-05,
      "loss": 2.1467,
      "step": 6576
    },
    {
      "epoch": 0.34693053311793215,
      "grad_norm": 0.28807443380355835,
      "learning_rate": 5e-05,
      "loss": 2.2473,
      "step": 6577
    },
    {
      "epoch": 0.34706515885837375,
      "grad_norm": 0.3811512589454651,
      "learning_rate": 5e-05,
      "loss": 2.6361,
      "step": 6578
    },
    {
      "epoch": 0.3471997845988153,
      "grad_norm": 0.47501352429389954,
      "learning_rate": 5e-05,
      "loss": 3.6787,
      "step": 6579
    },
    {
      "epoch": 0.3473344103392569,
      "grad_norm": 0.29367509484291077,
      "learning_rate": 5e-05,
      "loss": 2.6925,
      "step": 6580
    },
    {
      "epoch": 0.3474690360796984,
      "grad_norm": 0.29850056767463684,
      "learning_rate": 5e-05,
      "loss": 1.8478,
      "step": 6581
    },
    {
      "epoch": 0.34760366182014,
      "grad_norm": 0.43984735012054443,
      "learning_rate": 5e-05,
      "loss": 2.5078,
      "step": 6582
    },
    {
      "epoch": 0.34773828756058156,
      "grad_norm": 0.3153800964355469,
      "learning_rate": 5e-05,
      "loss": 2.3506,
      "step": 6583
    },
    {
      "epoch": 0.34787291330102316,
      "grad_norm": 0.28700679540634155,
      "learning_rate": 5e-05,
      "loss": 2.1366,
      "step": 6584
    },
    {
      "epoch": 0.34800753904146475,
      "grad_norm": 0.26336905360221863,
      "learning_rate": 5e-05,
      "loss": 1.641,
      "step": 6585
    },
    {
      "epoch": 0.3481421647819063,
      "grad_norm": 0.27411213517189026,
      "learning_rate": 5e-05,
      "loss": 1.828,
      "step": 6586
    },
    {
      "epoch": 0.3482767905223479,
      "grad_norm": 0.3029853403568268,
      "learning_rate": 5e-05,
      "loss": 1.8263,
      "step": 6587
    },
    {
      "epoch": 0.34841141626278943,
      "grad_norm": 0.3334864377975464,
      "learning_rate": 5e-05,
      "loss": 1.8871,
      "step": 6588
    },
    {
      "epoch": 0.348546042003231,
      "grad_norm": 0.2782812714576721,
      "learning_rate": 5e-05,
      "loss": 2.215,
      "step": 6589
    },
    {
      "epoch": 0.34868066774367257,
      "grad_norm": 0.26633384823799133,
      "learning_rate": 5e-05,
      "loss": 1.7307,
      "step": 6590
    },
    {
      "epoch": 0.34881529348411416,
      "grad_norm": 0.35295596718788147,
      "learning_rate": 5e-05,
      "loss": 2.241,
      "step": 6591
    },
    {
      "epoch": 0.34894991922455576,
      "grad_norm": 0.3311891555786133,
      "learning_rate": 5e-05,
      "loss": 2.2631,
      "step": 6592
    },
    {
      "epoch": 0.3490845449649973,
      "grad_norm": 0.2780555784702301,
      "learning_rate": 5e-05,
      "loss": 2.4353,
      "step": 6593
    },
    {
      "epoch": 0.3492191707054389,
      "grad_norm": 0.34163111448287964,
      "learning_rate": 5e-05,
      "loss": 2.869,
      "step": 6594
    },
    {
      "epoch": 0.34935379644588044,
      "grad_norm": 0.29811927676200867,
      "learning_rate": 5e-05,
      "loss": 1.8122,
      "step": 6595
    },
    {
      "epoch": 0.34948842218632203,
      "grad_norm": 0.30882924795150757,
      "learning_rate": 5e-05,
      "loss": 1.9977,
      "step": 6596
    },
    {
      "epoch": 0.3496230479267636,
      "grad_norm": 0.26636266708374023,
      "learning_rate": 5e-05,
      "loss": 1.9029,
      "step": 6597
    },
    {
      "epoch": 0.34975767366720517,
      "grad_norm": 0.31689879298210144,
      "learning_rate": 5e-05,
      "loss": 2.2315,
      "step": 6598
    },
    {
      "epoch": 0.34989229940764677,
      "grad_norm": 0.28513139486312866,
      "learning_rate": 5e-05,
      "loss": 2.0787,
      "step": 6599
    },
    {
      "epoch": 0.3500269251480883,
      "grad_norm": 0.2973974645137787,
      "learning_rate": 5e-05,
      "loss": 1.8279,
      "step": 6600
    },
    {
      "epoch": 0.3501615508885299,
      "grad_norm": 0.28448495268821716,
      "learning_rate": 5e-05,
      "loss": 1.9381,
      "step": 6601
    },
    {
      "epoch": 0.35029617662897145,
      "grad_norm": 0.2779265344142914,
      "learning_rate": 5e-05,
      "loss": 1.8377,
      "step": 6602
    },
    {
      "epoch": 0.35043080236941304,
      "grad_norm": 0.2750511169433594,
      "learning_rate": 5e-05,
      "loss": 1.8629,
      "step": 6603
    },
    {
      "epoch": 0.3505654281098546,
      "grad_norm": 0.26689979434013367,
      "learning_rate": 5e-05,
      "loss": 1.8015,
      "step": 6604
    },
    {
      "epoch": 0.3507000538502962,
      "grad_norm": 0.32541489601135254,
      "learning_rate": 5e-05,
      "loss": 2.3072,
      "step": 6605
    },
    {
      "epoch": 0.3508346795907378,
      "grad_norm": 0.36464419960975647,
      "learning_rate": 5e-05,
      "loss": 2.0175,
      "step": 6606
    },
    {
      "epoch": 0.3509693053311793,
      "grad_norm": 0.2627490162849426,
      "learning_rate": 5e-05,
      "loss": 2.1062,
      "step": 6607
    },
    {
      "epoch": 0.3511039310716209,
      "grad_norm": 0.29729723930358887,
      "learning_rate": 5e-05,
      "loss": 1.7754,
      "step": 6608
    },
    {
      "epoch": 0.35123855681206245,
      "grad_norm": 0.2716839015483856,
      "learning_rate": 5e-05,
      "loss": 1.7042,
      "step": 6609
    },
    {
      "epoch": 0.35137318255250405,
      "grad_norm": 0.29562312364578247,
      "learning_rate": 5e-05,
      "loss": 1.9117,
      "step": 6610
    },
    {
      "epoch": 0.3515078082929456,
      "grad_norm": 0.2759523391723633,
      "learning_rate": 5e-05,
      "loss": 2.0901,
      "step": 6611
    },
    {
      "epoch": 0.3516424340333872,
      "grad_norm": 0.26633748412132263,
      "learning_rate": 5e-05,
      "loss": 1.9858,
      "step": 6612
    },
    {
      "epoch": 0.3517770597738288,
      "grad_norm": 0.26255276799201965,
      "learning_rate": 5e-05,
      "loss": 2.1234,
      "step": 6613
    },
    {
      "epoch": 0.3519116855142703,
      "grad_norm": 0.2535647749900818,
      "learning_rate": 5e-05,
      "loss": 2.0513,
      "step": 6614
    },
    {
      "epoch": 0.3520463112547119,
      "grad_norm": 0.27350082993507385,
      "learning_rate": 5e-05,
      "loss": 1.8106,
      "step": 6615
    },
    {
      "epoch": 0.35218093699515346,
      "grad_norm": 0.31170451641082764,
      "learning_rate": 5e-05,
      "loss": 2.3026,
      "step": 6616
    },
    {
      "epoch": 0.35231556273559506,
      "grad_norm": 0.276282399892807,
      "learning_rate": 5e-05,
      "loss": 1.8473,
      "step": 6617
    },
    {
      "epoch": 0.3524501884760366,
      "grad_norm": 0.26964908838272095,
      "learning_rate": 5e-05,
      "loss": 2.2825,
      "step": 6618
    },
    {
      "epoch": 0.3525848142164782,
      "grad_norm": 0.28693559765815735,
      "learning_rate": 5e-05,
      "loss": 1.9562,
      "step": 6619
    },
    {
      "epoch": 0.3527194399569198,
      "grad_norm": 0.43416327238082886,
      "learning_rate": 5e-05,
      "loss": 2.6748,
      "step": 6620
    },
    {
      "epoch": 0.35285406569736133,
      "grad_norm": 0.2821616232395172,
      "learning_rate": 5e-05,
      "loss": 1.8798,
      "step": 6621
    },
    {
      "epoch": 0.3529886914378029,
      "grad_norm": 0.2767961919307709,
      "learning_rate": 5e-05,
      "loss": 1.6791,
      "step": 6622
    },
    {
      "epoch": 0.35312331717824447,
      "grad_norm": 0.2629720866680145,
      "learning_rate": 5e-05,
      "loss": 1.8521,
      "step": 6623
    },
    {
      "epoch": 0.35325794291868606,
      "grad_norm": 0.2746477723121643,
      "learning_rate": 5e-05,
      "loss": 1.8996,
      "step": 6624
    },
    {
      "epoch": 0.3533925686591276,
      "grad_norm": 0.26857760548591614,
      "learning_rate": 5e-05,
      "loss": 1.7984,
      "step": 6625
    },
    {
      "epoch": 0.3535271943995692,
      "grad_norm": 0.2839455008506775,
      "learning_rate": 5e-05,
      "loss": 1.8346,
      "step": 6626
    },
    {
      "epoch": 0.3536618201400108,
      "grad_norm": 0.2976907193660736,
      "learning_rate": 5e-05,
      "loss": 2.32,
      "step": 6627
    },
    {
      "epoch": 0.35379644588045234,
      "grad_norm": 0.27777016162872314,
      "learning_rate": 5e-05,
      "loss": 1.9777,
      "step": 6628
    },
    {
      "epoch": 0.35393107162089393,
      "grad_norm": 0.3144441545009613,
      "learning_rate": 5e-05,
      "loss": 2.2053,
      "step": 6629
    },
    {
      "epoch": 0.3540656973613355,
      "grad_norm": 0.2558983266353607,
      "learning_rate": 5e-05,
      "loss": 1.8807,
      "step": 6630
    },
    {
      "epoch": 0.35420032310177707,
      "grad_norm": 0.28990623354911804,
      "learning_rate": 5e-05,
      "loss": 1.9972,
      "step": 6631
    },
    {
      "epoch": 0.3543349488422186,
      "grad_norm": 0.26899993419647217,
      "learning_rate": 5e-05,
      "loss": 1.6116,
      "step": 6632
    },
    {
      "epoch": 0.3544695745826602,
      "grad_norm": 0.28695395588874817,
      "learning_rate": 5e-05,
      "loss": 2.0922,
      "step": 6633
    },
    {
      "epoch": 0.3546042003231018,
      "grad_norm": 0.33190885186195374,
      "learning_rate": 5e-05,
      "loss": 2.3589,
      "step": 6634
    },
    {
      "epoch": 0.35473882606354334,
      "grad_norm": 0.2752659320831299,
      "learning_rate": 5e-05,
      "loss": 2.0418,
      "step": 6635
    },
    {
      "epoch": 0.35487345180398494,
      "grad_norm": 0.2601378858089447,
      "learning_rate": 5e-05,
      "loss": 1.8211,
      "step": 6636
    },
    {
      "epoch": 0.3550080775444265,
      "grad_norm": 0.2662607431411743,
      "learning_rate": 5e-05,
      "loss": 1.8373,
      "step": 6637
    },
    {
      "epoch": 0.3551427032848681,
      "grad_norm": 0.30683252215385437,
      "learning_rate": 5e-05,
      "loss": 2.1849,
      "step": 6638
    },
    {
      "epoch": 0.3552773290253096,
      "grad_norm": 0.2592611014842987,
      "learning_rate": 5e-05,
      "loss": 1.6926,
      "step": 6639
    },
    {
      "epoch": 0.3554119547657512,
      "grad_norm": 0.26597172021865845,
      "learning_rate": 5e-05,
      "loss": 1.7409,
      "step": 6640
    },
    {
      "epoch": 0.3555465805061928,
      "grad_norm": 0.2958047688007355,
      "learning_rate": 5e-05,
      "loss": 2.2849,
      "step": 6641
    },
    {
      "epoch": 0.35568120624663435,
      "grad_norm": 0.263419508934021,
      "learning_rate": 5e-05,
      "loss": 1.6884,
      "step": 6642
    },
    {
      "epoch": 0.35581583198707595,
      "grad_norm": 0.27425602078437805,
      "learning_rate": 5e-05,
      "loss": 2.0752,
      "step": 6643
    },
    {
      "epoch": 0.3559504577275175,
      "grad_norm": 0.2668186128139496,
      "learning_rate": 5e-05,
      "loss": 1.7546,
      "step": 6644
    },
    {
      "epoch": 0.3560850834679591,
      "grad_norm": 0.323429673910141,
      "learning_rate": 5e-05,
      "loss": 2.2505,
      "step": 6645
    },
    {
      "epoch": 0.3562197092084006,
      "grad_norm": 0.2686845362186432,
      "learning_rate": 5e-05,
      "loss": 2.2224,
      "step": 6646
    },
    {
      "epoch": 0.3563543349488422,
      "grad_norm": 0.253064900636673,
      "learning_rate": 5e-05,
      "loss": 1.8911,
      "step": 6647
    },
    {
      "epoch": 0.3564889606892838,
      "grad_norm": 0.2796020805835724,
      "learning_rate": 5e-05,
      "loss": 1.8823,
      "step": 6648
    },
    {
      "epoch": 0.35662358642972536,
      "grad_norm": 0.29191839694976807,
      "learning_rate": 5e-05,
      "loss": 1.9805,
      "step": 6649
    },
    {
      "epoch": 0.35675821217016696,
      "grad_norm": 0.27076786756515503,
      "learning_rate": 5e-05,
      "loss": 1.6317,
      "step": 6650
    },
    {
      "epoch": 0.3568928379106085,
      "grad_norm": 0.2881253957748413,
      "learning_rate": 5e-05,
      "loss": 2.0225,
      "step": 6651
    },
    {
      "epoch": 0.3570274636510501,
      "grad_norm": 0.2577284574508667,
      "learning_rate": 5e-05,
      "loss": 2.0301,
      "step": 6652
    },
    {
      "epoch": 0.35716208939149163,
      "grad_norm": 0.25664788484573364,
      "learning_rate": 5e-05,
      "loss": 1.7259,
      "step": 6653
    },
    {
      "epoch": 0.35729671513193323,
      "grad_norm": 0.2805432081222534,
      "learning_rate": 5e-05,
      "loss": 1.9094,
      "step": 6654
    },
    {
      "epoch": 0.3574313408723748,
      "grad_norm": 0.2755821943283081,
      "learning_rate": 5e-05,
      "loss": 2.1377,
      "step": 6655
    },
    {
      "epoch": 0.35756596661281637,
      "grad_norm": 0.28992754220962524,
      "learning_rate": 5e-05,
      "loss": 1.9772,
      "step": 6656
    },
    {
      "epoch": 0.35770059235325796,
      "grad_norm": 0.3344288468360901,
      "learning_rate": 5e-05,
      "loss": 2.8398,
      "step": 6657
    },
    {
      "epoch": 0.3578352180936995,
      "grad_norm": 0.24979662895202637,
      "learning_rate": 5e-05,
      "loss": 1.7416,
      "step": 6658
    },
    {
      "epoch": 0.3579698438341411,
      "grad_norm": 0.2613896131515503,
      "learning_rate": 5e-05,
      "loss": 1.76,
      "step": 6659
    },
    {
      "epoch": 0.35810446957458264,
      "grad_norm": 0.2976992428302765,
      "learning_rate": 5e-05,
      "loss": 2.2515,
      "step": 6660
    },
    {
      "epoch": 0.35823909531502424,
      "grad_norm": 0.3477073609828949,
      "learning_rate": 5e-05,
      "loss": 2.2234,
      "step": 6661
    },
    {
      "epoch": 0.35837372105546583,
      "grad_norm": 0.2607690989971161,
      "learning_rate": 5e-05,
      "loss": 1.7727,
      "step": 6662
    },
    {
      "epoch": 0.3585083467959074,
      "grad_norm": 0.269513338804245,
      "learning_rate": 5e-05,
      "loss": 1.7825,
      "step": 6663
    },
    {
      "epoch": 0.35864297253634897,
      "grad_norm": 0.2622828781604767,
      "learning_rate": 5e-05,
      "loss": 1.8874,
      "step": 6664
    },
    {
      "epoch": 0.3587775982767905,
      "grad_norm": 0.26420557498931885,
      "learning_rate": 5e-05,
      "loss": 1.794,
      "step": 6665
    },
    {
      "epoch": 0.3589122240172321,
      "grad_norm": 0.28003811836242676,
      "learning_rate": 5e-05,
      "loss": 1.9913,
      "step": 6666
    },
    {
      "epoch": 0.35904684975767365,
      "grad_norm": 0.26858535408973694,
      "learning_rate": 5e-05,
      "loss": 1.5163,
      "step": 6667
    },
    {
      "epoch": 0.35918147549811524,
      "grad_norm": 0.26111698150634766,
      "learning_rate": 5e-05,
      "loss": 1.6402,
      "step": 6668
    },
    {
      "epoch": 0.35931610123855684,
      "grad_norm": 0.28441545367240906,
      "learning_rate": 5e-05,
      "loss": 2.0887,
      "step": 6669
    },
    {
      "epoch": 0.3594507269789984,
      "grad_norm": 0.2652779519557953,
      "learning_rate": 5e-05,
      "loss": 1.6335,
      "step": 6670
    },
    {
      "epoch": 0.35958535271944,
      "grad_norm": 0.2574367821216583,
      "learning_rate": 5e-05,
      "loss": 1.6297,
      "step": 6671
    },
    {
      "epoch": 0.3597199784598815,
      "grad_norm": 0.2629827558994293,
      "learning_rate": 5e-05,
      "loss": 1.7901,
      "step": 6672
    },
    {
      "epoch": 0.3598546042003231,
      "grad_norm": 0.2693313956260681,
      "learning_rate": 5e-05,
      "loss": 1.9947,
      "step": 6673
    },
    {
      "epoch": 0.35998922994076465,
      "grad_norm": 0.2650705873966217,
      "learning_rate": 5e-05,
      "loss": 1.9091,
      "step": 6674
    },
    {
      "epoch": 0.36012385568120625,
      "grad_norm": 0.2826218008995056,
      "learning_rate": 5e-05,
      "loss": 1.8987,
      "step": 6675
    },
    {
      "epoch": 0.3602584814216478,
      "grad_norm": 0.2889993190765381,
      "learning_rate": 5e-05,
      "loss": 2.1409,
      "step": 6676
    },
    {
      "epoch": 0.3603931071620894,
      "grad_norm": 0.3020499348640442,
      "learning_rate": 5e-05,
      "loss": 2.0653,
      "step": 6677
    },
    {
      "epoch": 0.360527732902531,
      "grad_norm": 0.30903205275535583,
      "learning_rate": 5e-05,
      "loss": 2.4763,
      "step": 6678
    },
    {
      "epoch": 0.3606623586429725,
      "grad_norm": 0.2674471437931061,
      "learning_rate": 5e-05,
      "loss": 1.6811,
      "step": 6679
    },
    {
      "epoch": 0.3607969843834141,
      "grad_norm": 0.30640068650245667,
      "learning_rate": 5e-05,
      "loss": 2.0315,
      "step": 6680
    },
    {
      "epoch": 0.36093161012385566,
      "grad_norm": 0.2767554521560669,
      "learning_rate": 5e-05,
      "loss": 2.5573,
      "step": 6681
    },
    {
      "epoch": 0.36106623586429726,
      "grad_norm": 0.26722198724746704,
      "learning_rate": 5e-05,
      "loss": 1.5188,
      "step": 6682
    },
    {
      "epoch": 0.3612008616047388,
      "grad_norm": 0.2963690459728241,
      "learning_rate": 5e-05,
      "loss": 1.9141,
      "step": 6683
    },
    {
      "epoch": 0.3613354873451804,
      "grad_norm": 0.2680419683456421,
      "learning_rate": 5e-05,
      "loss": 1.6116,
      "step": 6684
    },
    {
      "epoch": 0.361470113085622,
      "grad_norm": 0.26653578877449036,
      "learning_rate": 5e-05,
      "loss": 1.9154,
      "step": 6685
    },
    {
      "epoch": 0.36160473882606353,
      "grad_norm": 0.29045820236206055,
      "learning_rate": 5e-05,
      "loss": 2.2462,
      "step": 6686
    },
    {
      "epoch": 0.36173936456650513,
      "grad_norm": 0.2811865508556366,
      "learning_rate": 5e-05,
      "loss": 2.4233,
      "step": 6687
    },
    {
      "epoch": 0.36187399030694667,
      "grad_norm": 0.26550424098968506,
      "learning_rate": 5e-05,
      "loss": 1.8399,
      "step": 6688
    },
    {
      "epoch": 0.36200861604738827,
      "grad_norm": 0.27807506918907166,
      "learning_rate": 5e-05,
      "loss": 2.2859,
      "step": 6689
    },
    {
      "epoch": 0.3621432417878298,
      "grad_norm": 0.25326216220855713,
      "learning_rate": 5e-05,
      "loss": 1.6805,
      "step": 6690
    },
    {
      "epoch": 0.3622778675282714,
      "grad_norm": 0.3051474988460541,
      "learning_rate": 5e-05,
      "loss": 2.0982,
      "step": 6691
    },
    {
      "epoch": 0.362412493268713,
      "grad_norm": 0.279100626707077,
      "learning_rate": 5e-05,
      "loss": 1.9404,
      "step": 6692
    },
    {
      "epoch": 0.36254711900915454,
      "grad_norm": 0.3402054011821747,
      "learning_rate": 5e-05,
      "loss": 2.2264,
      "step": 6693
    },
    {
      "epoch": 0.36268174474959614,
      "grad_norm": 0.3443642258644104,
      "learning_rate": 5e-05,
      "loss": 3.2217,
      "step": 6694
    },
    {
      "epoch": 0.3628163704900377,
      "grad_norm": 0.28689146041870117,
      "learning_rate": 5e-05,
      "loss": 2.4353,
      "step": 6695
    },
    {
      "epoch": 0.3629509962304793,
      "grad_norm": 0.3930746018886566,
      "learning_rate": 5e-05,
      "loss": 2.5737,
      "step": 6696
    },
    {
      "epoch": 0.3630856219709208,
      "grad_norm": 0.2907983362674713,
      "learning_rate": 5e-05,
      "loss": 2.335,
      "step": 6697
    },
    {
      "epoch": 0.3632202477113624,
      "grad_norm": 0.2821548283100128,
      "learning_rate": 5e-05,
      "loss": 1.9052,
      "step": 6698
    },
    {
      "epoch": 0.363354873451804,
      "grad_norm": 0.30986979603767395,
      "learning_rate": 5e-05,
      "loss": 2.3523,
      "step": 6699
    },
    {
      "epoch": 0.36348949919224555,
      "grad_norm": 0.2745608687400818,
      "learning_rate": 5e-05,
      "loss": 2.1452,
      "step": 6700
    },
    {
      "epoch": 0.36362412493268714,
      "grad_norm": 0.2842101454734802,
      "learning_rate": 5e-05,
      "loss": 1.893,
      "step": 6701
    },
    {
      "epoch": 0.3637587506731287,
      "grad_norm": 0.2629736661911011,
      "learning_rate": 5e-05,
      "loss": 2.0122,
      "step": 6702
    },
    {
      "epoch": 0.3638933764135703,
      "grad_norm": 0.2715177834033966,
      "learning_rate": 5e-05,
      "loss": 1.6603,
      "step": 6703
    },
    {
      "epoch": 0.3640280021540118,
      "grad_norm": 0.2600104808807373,
      "learning_rate": 5e-05,
      "loss": 1.7373,
      "step": 6704
    },
    {
      "epoch": 0.3641626278944534,
      "grad_norm": 0.273742139339447,
      "learning_rate": 5e-05,
      "loss": 2.2124,
      "step": 6705
    },
    {
      "epoch": 0.364297253634895,
      "grad_norm": 0.2956565022468567,
      "learning_rate": 5e-05,
      "loss": 2.3486,
      "step": 6706
    },
    {
      "epoch": 0.36443187937533655,
      "grad_norm": 0.25604355335235596,
      "learning_rate": 5e-05,
      "loss": 1.7288,
      "step": 6707
    },
    {
      "epoch": 0.36456650511577815,
      "grad_norm": 0.2793352007865906,
      "learning_rate": 5e-05,
      "loss": 2.0791,
      "step": 6708
    },
    {
      "epoch": 0.3647011308562197,
      "grad_norm": 0.27374809980392456,
      "learning_rate": 5e-05,
      "loss": 1.8341,
      "step": 6709
    },
    {
      "epoch": 0.3648357565966613,
      "grad_norm": 0.2688954770565033,
      "learning_rate": 5e-05,
      "loss": 1.7696,
      "step": 6710
    },
    {
      "epoch": 0.3649703823371028,
      "grad_norm": 0.2885843515396118,
      "learning_rate": 5e-05,
      "loss": 2.2408,
      "step": 6711
    },
    {
      "epoch": 0.3651050080775444,
      "grad_norm": 0.29171308875083923,
      "learning_rate": 5e-05,
      "loss": 2.1544,
      "step": 6712
    },
    {
      "epoch": 0.365239633817986,
      "grad_norm": 0.28164952993392944,
      "learning_rate": 5e-05,
      "loss": 1.9225,
      "step": 6713
    },
    {
      "epoch": 0.36537425955842756,
      "grad_norm": 0.26293930411338806,
      "learning_rate": 5e-05,
      "loss": 1.7375,
      "step": 6714
    },
    {
      "epoch": 0.36550888529886916,
      "grad_norm": 0.3139369785785675,
      "learning_rate": 5e-05,
      "loss": 2.639,
      "step": 6715
    },
    {
      "epoch": 0.3656435110393107,
      "grad_norm": 0.25806352496147156,
      "learning_rate": 5e-05,
      "loss": 1.7196,
      "step": 6716
    },
    {
      "epoch": 0.3657781367797523,
      "grad_norm": 0.27571332454681396,
      "learning_rate": 5e-05,
      "loss": 1.9474,
      "step": 6717
    },
    {
      "epoch": 0.36591276252019383,
      "grad_norm": 0.27768638730049133,
      "learning_rate": 5e-05,
      "loss": 1.8299,
      "step": 6718
    },
    {
      "epoch": 0.36604738826063543,
      "grad_norm": 0.3058033287525177,
      "learning_rate": 5e-05,
      "loss": 2.2728,
      "step": 6719
    },
    {
      "epoch": 0.366182014001077,
      "grad_norm": 0.28569847345352173,
      "learning_rate": 5e-05,
      "loss": 1.8999,
      "step": 6720
    },
    {
      "epoch": 0.36631663974151857,
      "grad_norm": 0.2706372141838074,
      "learning_rate": 5e-05,
      "loss": 2.3372,
      "step": 6721
    },
    {
      "epoch": 0.36645126548196016,
      "grad_norm": 0.2750842869281769,
      "learning_rate": 5e-05,
      "loss": 1.7313,
      "step": 6722
    },
    {
      "epoch": 0.3665858912224017,
      "grad_norm": 0.2902035117149353,
      "learning_rate": 5e-05,
      "loss": 1.8779,
      "step": 6723
    },
    {
      "epoch": 0.3667205169628433,
      "grad_norm": 0.3036358058452606,
      "learning_rate": 5e-05,
      "loss": 1.9235,
      "step": 6724
    },
    {
      "epoch": 0.36685514270328484,
      "grad_norm": 0.2676766812801361,
      "learning_rate": 5e-05,
      "loss": 1.7783,
      "step": 6725
    },
    {
      "epoch": 0.36698976844372644,
      "grad_norm": 0.34276655316352844,
      "learning_rate": 5e-05,
      "loss": 2.7875,
      "step": 6726
    },
    {
      "epoch": 0.36712439418416803,
      "grad_norm": 0.27355968952178955,
      "learning_rate": 5e-05,
      "loss": 1.6815,
      "step": 6727
    },
    {
      "epoch": 0.3672590199246096,
      "grad_norm": 0.3004385232925415,
      "learning_rate": 5e-05,
      "loss": 2.2279,
      "step": 6728
    },
    {
      "epoch": 0.36739364566505117,
      "grad_norm": 0.26954537630081177,
      "learning_rate": 5e-05,
      "loss": 1.7046,
      "step": 6729
    },
    {
      "epoch": 0.3675282714054927,
      "grad_norm": 0.3226591944694519,
      "learning_rate": 5e-05,
      "loss": 2.1839,
      "step": 6730
    },
    {
      "epoch": 0.3676628971459343,
      "grad_norm": 0.27142685651779175,
      "learning_rate": 5e-05,
      "loss": 1.8563,
      "step": 6731
    },
    {
      "epoch": 0.36779752288637585,
      "grad_norm": 0.27126407623291016,
      "learning_rate": 5e-05,
      "loss": 1.9455,
      "step": 6732
    },
    {
      "epoch": 0.36793214862681745,
      "grad_norm": 0.2980532646179199,
      "learning_rate": 5e-05,
      "loss": 1.8834,
      "step": 6733
    },
    {
      "epoch": 0.36806677436725904,
      "grad_norm": 0.2813648581504822,
      "learning_rate": 5e-05,
      "loss": 2.0718,
      "step": 6734
    },
    {
      "epoch": 0.3682014001077006,
      "grad_norm": 0.28255289793014526,
      "learning_rate": 5e-05,
      "loss": 1.9304,
      "step": 6735
    },
    {
      "epoch": 0.3683360258481422,
      "grad_norm": 0.2732466161251068,
      "learning_rate": 5e-05,
      "loss": 1.688,
      "step": 6736
    },
    {
      "epoch": 0.3684706515885837,
      "grad_norm": 0.3098980784416199,
      "learning_rate": 5e-05,
      "loss": 2.0079,
      "step": 6737
    },
    {
      "epoch": 0.3686052773290253,
      "grad_norm": 0.27635490894317627,
      "learning_rate": 5e-05,
      "loss": 2.0024,
      "step": 6738
    },
    {
      "epoch": 0.36873990306946686,
      "grad_norm": 0.34626492857933044,
      "learning_rate": 5e-05,
      "loss": 2.5811,
      "step": 6739
    },
    {
      "epoch": 0.36887452880990845,
      "grad_norm": 0.2854672968387604,
      "learning_rate": 5e-05,
      "loss": 2.1223,
      "step": 6740
    },
    {
      "epoch": 0.36900915455035005,
      "grad_norm": 0.295044869184494,
      "learning_rate": 5e-05,
      "loss": 1.9383,
      "step": 6741
    },
    {
      "epoch": 0.3691437802907916,
      "grad_norm": 0.2994656264781952,
      "learning_rate": 5e-05,
      "loss": 2.5909,
      "step": 6742
    },
    {
      "epoch": 0.3692784060312332,
      "grad_norm": 0.285853773355484,
      "learning_rate": 5e-05,
      "loss": 2.6673,
      "step": 6743
    },
    {
      "epoch": 0.3694130317716747,
      "grad_norm": 0.2682328522205353,
      "learning_rate": 5e-05,
      "loss": 1.5975,
      "step": 6744
    },
    {
      "epoch": 0.3695476575121163,
      "grad_norm": 0.2890785336494446,
      "learning_rate": 5e-05,
      "loss": 3.1689,
      "step": 6745
    },
    {
      "epoch": 0.36968228325255786,
      "grad_norm": 0.26650092005729675,
      "learning_rate": 5e-05,
      "loss": 1.9614,
      "step": 6746
    },
    {
      "epoch": 0.36981690899299946,
      "grad_norm": 0.28776246309280396,
      "learning_rate": 5e-05,
      "loss": 2.0182,
      "step": 6747
    },
    {
      "epoch": 0.36995153473344106,
      "grad_norm": 0.28438374400138855,
      "learning_rate": 5e-05,
      "loss": 2.055,
      "step": 6748
    },
    {
      "epoch": 0.3700861604738826,
      "grad_norm": 0.3051028251647949,
      "learning_rate": 5e-05,
      "loss": 2.0662,
      "step": 6749
    },
    {
      "epoch": 0.3702207862143242,
      "grad_norm": 0.2749808728694916,
      "learning_rate": 5e-05,
      "loss": 1.6209,
      "step": 6750
    },
    {
      "epoch": 0.37035541195476573,
      "grad_norm": 0.30673035979270935,
      "learning_rate": 5e-05,
      "loss": 2.2956,
      "step": 6751
    },
    {
      "epoch": 0.37049003769520733,
      "grad_norm": 0.2779090106487274,
      "learning_rate": 5e-05,
      "loss": 2.0964,
      "step": 6752
    },
    {
      "epoch": 0.37062466343564887,
      "grad_norm": 0.2892298996448517,
      "learning_rate": 5e-05,
      "loss": 1.6546,
      "step": 6753
    },
    {
      "epoch": 0.37075928917609047,
      "grad_norm": 0.35607025027275085,
      "learning_rate": 5e-05,
      "loss": 2.5242,
      "step": 6754
    },
    {
      "epoch": 0.37089391491653206,
      "grad_norm": 0.29455703496932983,
      "learning_rate": 5e-05,
      "loss": 1.815,
      "step": 6755
    },
    {
      "epoch": 0.3710285406569736,
      "grad_norm": 0.2915959060192108,
      "learning_rate": 5e-05,
      "loss": 2.2192,
      "step": 6756
    },
    {
      "epoch": 0.3711631663974152,
      "grad_norm": 0.2709473967552185,
      "learning_rate": 5e-05,
      "loss": 2.3967,
      "step": 6757
    },
    {
      "epoch": 0.37129779213785674,
      "grad_norm": 0.25528717041015625,
      "learning_rate": 5e-05,
      "loss": 1.9174,
      "step": 6758
    },
    {
      "epoch": 0.37143241787829834,
      "grad_norm": 0.2837575674057007,
      "learning_rate": 5e-05,
      "loss": 1.8846,
      "step": 6759
    },
    {
      "epoch": 0.3715670436187399,
      "grad_norm": 0.27539801597595215,
      "learning_rate": 5e-05,
      "loss": 1.7654,
      "step": 6760
    },
    {
      "epoch": 0.3717016693591815,
      "grad_norm": 0.2629556655883789,
      "learning_rate": 5e-05,
      "loss": 1.7968,
      "step": 6761
    },
    {
      "epoch": 0.37183629509962307,
      "grad_norm": 0.3055311143398285,
      "learning_rate": 5e-05,
      "loss": 2.3491,
      "step": 6762
    },
    {
      "epoch": 0.3719709208400646,
      "grad_norm": 0.2761584520339966,
      "learning_rate": 5e-05,
      "loss": 1.8827,
      "step": 6763
    },
    {
      "epoch": 0.3721055465805062,
      "grad_norm": 0.2774687707424164,
      "learning_rate": 5e-05,
      "loss": 2.0039,
      "step": 6764
    },
    {
      "epoch": 0.37224017232094775,
      "grad_norm": 0.273936927318573,
      "learning_rate": 5e-05,
      "loss": 2.1695,
      "step": 6765
    },
    {
      "epoch": 0.37237479806138934,
      "grad_norm": 0.30037418007850647,
      "learning_rate": 5e-05,
      "loss": 2.3788,
      "step": 6766
    },
    {
      "epoch": 0.3725094238018309,
      "grad_norm": 0.27575621008872986,
      "learning_rate": 5e-05,
      "loss": 2.6499,
      "step": 6767
    },
    {
      "epoch": 0.3726440495422725,
      "grad_norm": 0.2808833122253418,
      "learning_rate": 5e-05,
      "loss": 2.4221,
      "step": 6768
    },
    {
      "epoch": 0.3727786752827141,
      "grad_norm": 0.2760654389858246,
      "learning_rate": 5e-05,
      "loss": 2.1925,
      "step": 6769
    },
    {
      "epoch": 0.3729133010231556,
      "grad_norm": 0.29878881573677063,
      "learning_rate": 5e-05,
      "loss": 1.9992,
      "step": 6770
    },
    {
      "epoch": 0.3730479267635972,
      "grad_norm": 0.2592599093914032,
      "learning_rate": 5e-05,
      "loss": 1.7461,
      "step": 6771
    },
    {
      "epoch": 0.37318255250403876,
      "grad_norm": 0.27332204580307007,
      "learning_rate": 5e-05,
      "loss": 2.0637,
      "step": 6772
    },
    {
      "epoch": 0.37331717824448035,
      "grad_norm": 0.33406734466552734,
      "learning_rate": 5e-05,
      "loss": 3.0317,
      "step": 6773
    },
    {
      "epoch": 0.3734518039849219,
      "grad_norm": 0.3008888363838196,
      "learning_rate": 5e-05,
      "loss": 1.7787,
      "step": 6774
    },
    {
      "epoch": 0.3735864297253635,
      "grad_norm": 0.29070883989334106,
      "learning_rate": 5e-05,
      "loss": 2.0388,
      "step": 6775
    },
    {
      "epoch": 0.3737210554658051,
      "grad_norm": 0.2826363742351532,
      "learning_rate": 5e-05,
      "loss": 1.8956,
      "step": 6776
    },
    {
      "epoch": 0.3738556812062466,
      "grad_norm": 0.28242185711860657,
      "learning_rate": 5e-05,
      "loss": 2.0316,
      "step": 6777
    },
    {
      "epoch": 0.3739903069466882,
      "grad_norm": 0.2680589258670807,
      "learning_rate": 5e-05,
      "loss": 1.8198,
      "step": 6778
    },
    {
      "epoch": 0.37412493268712976,
      "grad_norm": 0.25130224227905273,
      "learning_rate": 5e-05,
      "loss": 1.973,
      "step": 6779
    },
    {
      "epoch": 0.37425955842757136,
      "grad_norm": 0.27271148562431335,
      "learning_rate": 5e-05,
      "loss": 2.1621,
      "step": 6780
    },
    {
      "epoch": 0.3743941841680129,
      "grad_norm": 0.3497377336025238,
      "learning_rate": 5e-05,
      "loss": 2.1553,
      "step": 6781
    },
    {
      "epoch": 0.3745288099084545,
      "grad_norm": 0.3250299394130707,
      "learning_rate": 5e-05,
      "loss": 2.1905,
      "step": 6782
    },
    {
      "epoch": 0.3746634356488961,
      "grad_norm": 0.26887720823287964,
      "learning_rate": 5e-05,
      "loss": 1.9369,
      "step": 6783
    },
    {
      "epoch": 0.37479806138933763,
      "grad_norm": 0.2673063278198242,
      "learning_rate": 5e-05,
      "loss": 1.8011,
      "step": 6784
    },
    {
      "epoch": 0.37493268712977923,
      "grad_norm": 0.30984607338905334,
      "learning_rate": 5e-05,
      "loss": 2.3192,
      "step": 6785
    },
    {
      "epoch": 0.37506731287022077,
      "grad_norm": 0.27045461535453796,
      "learning_rate": 5e-05,
      "loss": 2.0524,
      "step": 6786
    },
    {
      "epoch": 0.37520193861066237,
      "grad_norm": 0.28953811526298523,
      "learning_rate": 5e-05,
      "loss": 1.9645,
      "step": 6787
    },
    {
      "epoch": 0.3753365643511039,
      "grad_norm": 0.26765358448028564,
      "learning_rate": 5e-05,
      "loss": 1.9796,
      "step": 6788
    },
    {
      "epoch": 0.3754711900915455,
      "grad_norm": 0.27622321248054504,
      "learning_rate": 5e-05,
      "loss": 1.7496,
      "step": 6789
    },
    {
      "epoch": 0.3756058158319871,
      "grad_norm": 0.30177029967308044,
      "learning_rate": 5e-05,
      "loss": 2.0087,
      "step": 6790
    },
    {
      "epoch": 0.37574044157242864,
      "grad_norm": 0.3494311273097992,
      "learning_rate": 5e-05,
      "loss": 2.5287,
      "step": 6791
    },
    {
      "epoch": 0.37587506731287024,
      "grad_norm": 0.3499380648136139,
      "learning_rate": 5e-05,
      "loss": 3.0791,
      "step": 6792
    },
    {
      "epoch": 0.3760096930533118,
      "grad_norm": 0.32601070404052734,
      "learning_rate": 5e-05,
      "loss": 2.2749,
      "step": 6793
    },
    {
      "epoch": 0.3761443187937534,
      "grad_norm": 0.29681169986724854,
      "learning_rate": 5e-05,
      "loss": 1.7893,
      "step": 6794
    },
    {
      "epoch": 0.3762789445341949,
      "grad_norm": 0.29293861985206604,
      "learning_rate": 5e-05,
      "loss": 1.9468,
      "step": 6795
    },
    {
      "epoch": 0.3764135702746365,
      "grad_norm": 0.5050408840179443,
      "learning_rate": 5e-05,
      "loss": 3.573,
      "step": 6796
    },
    {
      "epoch": 0.3765481960150781,
      "grad_norm": 0.2719270884990692,
      "learning_rate": 5e-05,
      "loss": 1.799,
      "step": 6797
    },
    {
      "epoch": 0.37668282175551965,
      "grad_norm": 0.327182412147522,
      "learning_rate": 5e-05,
      "loss": 2.4039,
      "step": 6798
    },
    {
      "epoch": 0.37681744749596124,
      "grad_norm": 0.27079638838768005,
      "learning_rate": 5e-05,
      "loss": 1.7544,
      "step": 6799
    },
    {
      "epoch": 0.3769520732364028,
      "grad_norm": 0.2653166353702545,
      "learning_rate": 5e-05,
      "loss": 1.8714,
      "step": 6800
    },
    {
      "epoch": 0.3770866989768444,
      "grad_norm": 0.27679890394210815,
      "learning_rate": 5e-05,
      "loss": 2.1023,
      "step": 6801
    },
    {
      "epoch": 0.3772213247172859,
      "grad_norm": 0.285715252161026,
      "learning_rate": 5e-05,
      "loss": 1.9102,
      "step": 6802
    },
    {
      "epoch": 0.3773559504577275,
      "grad_norm": 0.30113035440444946,
      "learning_rate": 5e-05,
      "loss": 3.0399,
      "step": 6803
    },
    {
      "epoch": 0.3774905761981691,
      "grad_norm": 0.36023736000061035,
      "learning_rate": 5e-05,
      "loss": 2.9013,
      "step": 6804
    },
    {
      "epoch": 0.37762520193861066,
      "grad_norm": 0.2717230021953583,
      "learning_rate": 5e-05,
      "loss": 1.8213,
      "step": 6805
    },
    {
      "epoch": 0.37775982767905225,
      "grad_norm": 0.2855924069881439,
      "learning_rate": 5e-05,
      "loss": 1.9205,
      "step": 6806
    },
    {
      "epoch": 0.3778944534194938,
      "grad_norm": 0.27624163031578064,
      "learning_rate": 5e-05,
      "loss": 1.8112,
      "step": 6807
    },
    {
      "epoch": 0.3780290791599354,
      "grad_norm": 0.283200204372406,
      "learning_rate": 5e-05,
      "loss": 2.1459,
      "step": 6808
    },
    {
      "epoch": 0.37816370490037693,
      "grad_norm": 0.28217265009880066,
      "learning_rate": 5e-05,
      "loss": 1.8984,
      "step": 6809
    },
    {
      "epoch": 0.3782983306408185,
      "grad_norm": 0.2837035655975342,
      "learning_rate": 5e-05,
      "loss": 1.7516,
      "step": 6810
    },
    {
      "epoch": 0.3784329563812601,
      "grad_norm": 0.3156449794769287,
      "learning_rate": 5e-05,
      "loss": 2.3541,
      "step": 6811
    },
    {
      "epoch": 0.37856758212170166,
      "grad_norm": 0.2674655318260193,
      "learning_rate": 5e-05,
      "loss": 1.5753,
      "step": 6812
    },
    {
      "epoch": 0.37870220786214326,
      "grad_norm": 0.274594783782959,
      "learning_rate": 5e-05,
      "loss": 1.9473,
      "step": 6813
    },
    {
      "epoch": 0.3788368336025848,
      "grad_norm": 0.2712211310863495,
      "learning_rate": 5e-05,
      "loss": 1.8101,
      "step": 6814
    },
    {
      "epoch": 0.3789714593430264,
      "grad_norm": 0.29006075859069824,
      "learning_rate": 5e-05,
      "loss": 1.7845,
      "step": 6815
    },
    {
      "epoch": 0.37910608508346794,
      "grad_norm": 0.2635866701602936,
      "learning_rate": 5e-05,
      "loss": 1.8633,
      "step": 6816
    },
    {
      "epoch": 0.37924071082390953,
      "grad_norm": 0.27829211950302124,
      "learning_rate": 5e-05,
      "loss": 1.8712,
      "step": 6817
    },
    {
      "epoch": 0.37937533656435113,
      "grad_norm": 0.28124499320983887,
      "learning_rate": 5e-05,
      "loss": 1.879,
      "step": 6818
    },
    {
      "epoch": 0.37950996230479267,
      "grad_norm": 0.2810453772544861,
      "learning_rate": 5e-05,
      "loss": 1.7224,
      "step": 6819
    },
    {
      "epoch": 0.37964458804523427,
      "grad_norm": 0.2859972417354584,
      "learning_rate": 5e-05,
      "loss": 1.8504,
      "step": 6820
    },
    {
      "epoch": 0.3797792137856758,
      "grad_norm": 0.29694297909736633,
      "learning_rate": 5e-05,
      "loss": 2.0835,
      "step": 6821
    },
    {
      "epoch": 0.3799138395261174,
      "grad_norm": 0.29506781697273254,
      "learning_rate": 5e-05,
      "loss": 2.5881,
      "step": 6822
    },
    {
      "epoch": 0.38004846526655894,
      "grad_norm": 0.2691991925239563,
      "learning_rate": 5e-05,
      "loss": 1.6649,
      "step": 6823
    },
    {
      "epoch": 0.38018309100700054,
      "grad_norm": 0.27512526512145996,
      "learning_rate": 5e-05,
      "loss": 1.7965,
      "step": 6824
    },
    {
      "epoch": 0.38031771674744214,
      "grad_norm": 0.28316807746887207,
      "learning_rate": 5e-05,
      "loss": 1.7287,
      "step": 6825
    },
    {
      "epoch": 0.3804523424878837,
      "grad_norm": 0.28112170100212097,
      "learning_rate": 5e-05,
      "loss": 2.6334,
      "step": 6826
    },
    {
      "epoch": 0.3805869682283253,
      "grad_norm": 0.2957078516483307,
      "learning_rate": 5e-05,
      "loss": 2.0121,
      "step": 6827
    },
    {
      "epoch": 0.3807215939687668,
      "grad_norm": 0.25314652919769287,
      "learning_rate": 5e-05,
      "loss": 1.6703,
      "step": 6828
    },
    {
      "epoch": 0.3808562197092084,
      "grad_norm": 0.26248660683631897,
      "learning_rate": 5e-05,
      "loss": 1.602,
      "step": 6829
    },
    {
      "epoch": 0.38099084544964995,
      "grad_norm": 0.2997629642486572,
      "learning_rate": 5e-05,
      "loss": 2.5943,
      "step": 6830
    },
    {
      "epoch": 0.38112547119009155,
      "grad_norm": 0.26513317227363586,
      "learning_rate": 5e-05,
      "loss": 1.7706,
      "step": 6831
    },
    {
      "epoch": 0.38126009693053314,
      "grad_norm": 0.27130818367004395,
      "learning_rate": 5e-05,
      "loss": 1.684,
      "step": 6832
    },
    {
      "epoch": 0.3813947226709747,
      "grad_norm": 0.32034698128700256,
      "learning_rate": 5e-05,
      "loss": 2.36,
      "step": 6833
    },
    {
      "epoch": 0.3815293484114163,
      "grad_norm": 0.29553037881851196,
      "learning_rate": 5e-05,
      "loss": 2.7177,
      "step": 6834
    },
    {
      "epoch": 0.3816639741518578,
      "grad_norm": 0.2622709572315216,
      "learning_rate": 5e-05,
      "loss": 2.0118,
      "step": 6835
    },
    {
      "epoch": 0.3817985998922994,
      "grad_norm": 0.28895625472068787,
      "learning_rate": 5e-05,
      "loss": 2.2654,
      "step": 6836
    },
    {
      "epoch": 0.38193322563274096,
      "grad_norm": 0.313876211643219,
      "learning_rate": 5e-05,
      "loss": 1.986,
      "step": 6837
    },
    {
      "epoch": 0.38206785137318255,
      "grad_norm": 0.3097250461578369,
      "learning_rate": 5e-05,
      "loss": 1.7629,
      "step": 6838
    },
    {
      "epoch": 0.38220247711362415,
      "grad_norm": 0.29285329580307007,
      "learning_rate": 5e-05,
      "loss": 1.9818,
      "step": 6839
    },
    {
      "epoch": 0.3823371028540657,
      "grad_norm": 0.28825923800468445,
      "learning_rate": 5e-05,
      "loss": 2.2161,
      "step": 6840
    },
    {
      "epoch": 0.3824717285945073,
      "grad_norm": 0.260270357131958,
      "learning_rate": 5e-05,
      "loss": 1.6402,
      "step": 6841
    },
    {
      "epoch": 0.38260635433494883,
      "grad_norm": 0.2912997305393219,
      "learning_rate": 5e-05,
      "loss": 2.363,
      "step": 6842
    },
    {
      "epoch": 0.3827409800753904,
      "grad_norm": 0.29192930459976196,
      "learning_rate": 5e-05,
      "loss": 2.0257,
      "step": 6843
    },
    {
      "epoch": 0.38287560581583197,
      "grad_norm": 0.27378445863723755,
      "learning_rate": 5e-05,
      "loss": 1.9586,
      "step": 6844
    },
    {
      "epoch": 0.38301023155627356,
      "grad_norm": 0.2753433585166931,
      "learning_rate": 5e-05,
      "loss": 2.9047,
      "step": 6845
    },
    {
      "epoch": 0.38314485729671516,
      "grad_norm": 0.29171502590179443,
      "learning_rate": 5e-05,
      "loss": 2.138,
      "step": 6846
    },
    {
      "epoch": 0.3832794830371567,
      "grad_norm": 0.301209032535553,
      "learning_rate": 5e-05,
      "loss": 2.0497,
      "step": 6847
    },
    {
      "epoch": 0.3834141087775983,
      "grad_norm": 0.2774151563644409,
      "learning_rate": 5e-05,
      "loss": 2.6323,
      "step": 6848
    },
    {
      "epoch": 0.38354873451803984,
      "grad_norm": 0.3295201063156128,
      "learning_rate": 5e-05,
      "loss": 2.1126,
      "step": 6849
    },
    {
      "epoch": 0.38368336025848143,
      "grad_norm": 0.26637324690818787,
      "learning_rate": 5e-05,
      "loss": 1.7122,
      "step": 6850
    },
    {
      "epoch": 0.383817985998923,
      "grad_norm": 0.2889726758003235,
      "learning_rate": 5e-05,
      "loss": 2.3029,
      "step": 6851
    },
    {
      "epoch": 0.38395261173936457,
      "grad_norm": 0.2686021327972412,
      "learning_rate": 5e-05,
      "loss": 1.8117,
      "step": 6852
    },
    {
      "epoch": 0.38408723747980617,
      "grad_norm": 0.27766063809394836,
      "learning_rate": 5e-05,
      "loss": 2.2018,
      "step": 6853
    },
    {
      "epoch": 0.3842218632202477,
      "grad_norm": 0.2633320689201355,
      "learning_rate": 5e-05,
      "loss": 1.9618,
      "step": 6854
    },
    {
      "epoch": 0.3843564889606893,
      "grad_norm": 0.3241073787212372,
      "learning_rate": 5e-05,
      "loss": 2.2898,
      "step": 6855
    },
    {
      "epoch": 0.38449111470113084,
      "grad_norm": 0.3156297504901886,
      "learning_rate": 5e-05,
      "loss": 2.1545,
      "step": 6856
    },
    {
      "epoch": 0.38462574044157244,
      "grad_norm": 0.2681283950805664,
      "learning_rate": 5e-05,
      "loss": 1.8225,
      "step": 6857
    },
    {
      "epoch": 0.384760366182014,
      "grad_norm": 0.2603956460952759,
      "learning_rate": 5e-05,
      "loss": 1.6787,
      "step": 6858
    },
    {
      "epoch": 0.3848949919224556,
      "grad_norm": 0.3134928345680237,
      "learning_rate": 5e-05,
      "loss": 2.9337,
      "step": 6859
    },
    {
      "epoch": 0.3850296176628972,
      "grad_norm": 0.2724546194076538,
      "learning_rate": 5e-05,
      "loss": 2.0055,
      "step": 6860
    },
    {
      "epoch": 0.3851642434033387,
      "grad_norm": 0.287950336933136,
      "learning_rate": 5e-05,
      "loss": 2.8777,
      "step": 6861
    },
    {
      "epoch": 0.3852988691437803,
      "grad_norm": 0.273057222366333,
      "learning_rate": 5e-05,
      "loss": 1.7233,
      "step": 6862
    },
    {
      "epoch": 0.38543349488422185,
      "grad_norm": 0.27260562777519226,
      "learning_rate": 5e-05,
      "loss": 2.2484,
      "step": 6863
    },
    {
      "epoch": 0.38556812062466345,
      "grad_norm": 0.267451673746109,
      "learning_rate": 5e-05,
      "loss": 1.6715,
      "step": 6864
    },
    {
      "epoch": 0.385702746365105,
      "grad_norm": 0.28534337878227234,
      "learning_rate": 5e-05,
      "loss": 2.1063,
      "step": 6865
    },
    {
      "epoch": 0.3858373721055466,
      "grad_norm": 0.3097338080406189,
      "learning_rate": 5e-05,
      "loss": 3.1551,
      "step": 6866
    },
    {
      "epoch": 0.3859719978459882,
      "grad_norm": 0.2875184416770935,
      "learning_rate": 5e-05,
      "loss": 2.2004,
      "step": 6867
    },
    {
      "epoch": 0.3861066235864297,
      "grad_norm": 0.33638864755630493,
      "learning_rate": 5e-05,
      "loss": 2.3169,
      "step": 6868
    },
    {
      "epoch": 0.3862412493268713,
      "grad_norm": 0.2690586447715759,
      "learning_rate": 5e-05,
      "loss": 1.8351,
      "step": 6869
    },
    {
      "epoch": 0.38637587506731286,
      "grad_norm": 0.29288986325263977,
      "learning_rate": 5e-05,
      "loss": 2.1352,
      "step": 6870
    },
    {
      "epoch": 0.38651050080775445,
      "grad_norm": 0.2803838551044464,
      "learning_rate": 5e-05,
      "loss": 1.6579,
      "step": 6871
    },
    {
      "epoch": 0.386645126548196,
      "grad_norm": 0.26320692896842957,
      "learning_rate": 5e-05,
      "loss": 1.7513,
      "step": 6872
    },
    {
      "epoch": 0.3867797522886376,
      "grad_norm": 0.2792944312095642,
      "learning_rate": 5e-05,
      "loss": 2.7363,
      "step": 6873
    },
    {
      "epoch": 0.3869143780290792,
      "grad_norm": 0.2896174490451813,
      "learning_rate": 5e-05,
      "loss": 1.7582,
      "step": 6874
    },
    {
      "epoch": 0.3870490037695207,
      "grad_norm": 0.30363625288009644,
      "learning_rate": 5e-05,
      "loss": 1.811,
      "step": 6875
    },
    {
      "epoch": 0.3871836295099623,
      "grad_norm": 0.42092373967170715,
      "learning_rate": 5e-05,
      "loss": 2.8174,
      "step": 6876
    },
    {
      "epoch": 0.38731825525040386,
      "grad_norm": 0.27607348561286926,
      "learning_rate": 5e-05,
      "loss": 1.7459,
      "step": 6877
    },
    {
      "epoch": 0.38745288099084546,
      "grad_norm": 0.31444498896598816,
      "learning_rate": 5e-05,
      "loss": 2.0368,
      "step": 6878
    },
    {
      "epoch": 0.387587506731287,
      "grad_norm": 0.27591073513031006,
      "learning_rate": 5e-05,
      "loss": 1.8671,
      "step": 6879
    },
    {
      "epoch": 0.3877221324717286,
      "grad_norm": 0.25506824254989624,
      "learning_rate": 5e-05,
      "loss": 1.7827,
      "step": 6880
    },
    {
      "epoch": 0.3878567582121702,
      "grad_norm": 0.29921698570251465,
      "learning_rate": 5e-05,
      "loss": 2.3318,
      "step": 6881
    },
    {
      "epoch": 0.38799138395261173,
      "grad_norm": 0.2797011435031891,
      "learning_rate": 5e-05,
      "loss": 1.8408,
      "step": 6882
    },
    {
      "epoch": 0.38812600969305333,
      "grad_norm": 0.43999576568603516,
      "learning_rate": 5e-05,
      "loss": 3.0282,
      "step": 6883
    },
    {
      "epoch": 0.38826063543349487,
      "grad_norm": 0.2712128758430481,
      "learning_rate": 5e-05,
      "loss": 1.7325,
      "step": 6884
    },
    {
      "epoch": 0.38839526117393647,
      "grad_norm": 0.3357013165950775,
      "learning_rate": 5e-05,
      "loss": 2.2052,
      "step": 6885
    },
    {
      "epoch": 0.388529886914378,
      "grad_norm": 0.2861190438270569,
      "learning_rate": 5e-05,
      "loss": 2.1255,
      "step": 6886
    },
    {
      "epoch": 0.3886645126548196,
      "grad_norm": 0.2962363064289093,
      "learning_rate": 5e-05,
      "loss": 1.7633,
      "step": 6887
    },
    {
      "epoch": 0.3887991383952612,
      "grad_norm": 0.28115564584732056,
      "learning_rate": 5e-05,
      "loss": 1.6851,
      "step": 6888
    },
    {
      "epoch": 0.38893376413570274,
      "grad_norm": 0.2873692810535431,
      "learning_rate": 5e-05,
      "loss": 1.9792,
      "step": 6889
    },
    {
      "epoch": 0.38906838987614434,
      "grad_norm": 0.2672242224216461,
      "learning_rate": 5e-05,
      "loss": 1.6864,
      "step": 6890
    },
    {
      "epoch": 0.3892030156165859,
      "grad_norm": 0.2700466215610504,
      "learning_rate": 5e-05,
      "loss": 1.7106,
      "step": 6891
    },
    {
      "epoch": 0.3893376413570275,
      "grad_norm": 0.3186631202697754,
      "learning_rate": 5e-05,
      "loss": 2.7333,
      "step": 6892
    },
    {
      "epoch": 0.389472267097469,
      "grad_norm": 0.34237727522850037,
      "learning_rate": 5e-05,
      "loss": 2.6306,
      "step": 6893
    },
    {
      "epoch": 0.3896068928379106,
      "grad_norm": 0.28040748834609985,
      "learning_rate": 5e-05,
      "loss": 1.8585,
      "step": 6894
    },
    {
      "epoch": 0.3897415185783522,
      "grad_norm": 0.2891138195991516,
      "learning_rate": 5e-05,
      "loss": 1.9116,
      "step": 6895
    },
    {
      "epoch": 0.38987614431879375,
      "grad_norm": 0.285668283700943,
      "learning_rate": 5e-05,
      "loss": 1.7662,
      "step": 6896
    },
    {
      "epoch": 0.39001077005923535,
      "grad_norm": 0.27000075578689575,
      "learning_rate": 5e-05,
      "loss": 1.8916,
      "step": 6897
    },
    {
      "epoch": 0.3901453957996769,
      "grad_norm": 0.2835596203804016,
      "learning_rate": 5e-05,
      "loss": 1.8452,
      "step": 6898
    },
    {
      "epoch": 0.3902800215401185,
      "grad_norm": 0.2941073477268219,
      "learning_rate": 5e-05,
      "loss": 2.4337,
      "step": 6899
    },
    {
      "epoch": 0.39041464728056,
      "grad_norm": 0.2871513068675995,
      "learning_rate": 5e-05,
      "loss": 1.939,
      "step": 6900
    },
    {
      "epoch": 0.3905492730210016,
      "grad_norm": 0.29083266854286194,
      "learning_rate": 5e-05,
      "loss": 1.738,
      "step": 6901
    },
    {
      "epoch": 0.39068389876144316,
      "grad_norm": 0.2646290957927704,
      "learning_rate": 5e-05,
      "loss": 2.1257,
      "step": 6902
    },
    {
      "epoch": 0.39081852450188476,
      "grad_norm": 0.27784550189971924,
      "learning_rate": 5e-05,
      "loss": 1.9766,
      "step": 6903
    },
    {
      "epoch": 0.39095315024232635,
      "grad_norm": 0.27390965819358826,
      "learning_rate": 5e-05,
      "loss": 1.7262,
      "step": 6904
    },
    {
      "epoch": 0.3910877759827679,
      "grad_norm": 0.2624560296535492,
      "learning_rate": 5e-05,
      "loss": 1.9266,
      "step": 6905
    },
    {
      "epoch": 0.3912224017232095,
      "grad_norm": 0.31220778822898865,
      "learning_rate": 5e-05,
      "loss": 1.5363,
      "step": 6906
    },
    {
      "epoch": 0.39135702746365103,
      "grad_norm": 0.2603829801082611,
      "learning_rate": 5e-05,
      "loss": 1.6551,
      "step": 6907
    },
    {
      "epoch": 0.3914916532040926,
      "grad_norm": 0.2761530578136444,
      "learning_rate": 5e-05,
      "loss": 1.596,
      "step": 6908
    },
    {
      "epoch": 0.39162627894453417,
      "grad_norm": 0.28099825978279114,
      "learning_rate": 5e-05,
      "loss": 1.9866,
      "step": 6909
    },
    {
      "epoch": 0.39176090468497576,
      "grad_norm": 0.2682066857814789,
      "learning_rate": 5e-05,
      "loss": 2.0535,
      "step": 6910
    },
    {
      "epoch": 0.39189553042541736,
      "grad_norm": 0.28144580125808716,
      "learning_rate": 5e-05,
      "loss": 2.1536,
      "step": 6911
    },
    {
      "epoch": 0.3920301561658589,
      "grad_norm": 0.277384489774704,
      "learning_rate": 5e-05,
      "loss": 1.7683,
      "step": 6912
    },
    {
      "epoch": 0.3921647819063005,
      "grad_norm": 0.26539018750190735,
      "learning_rate": 5e-05,
      "loss": 1.7242,
      "step": 6913
    },
    {
      "epoch": 0.39229940764674204,
      "grad_norm": 0.2747974693775177,
      "learning_rate": 5e-05,
      "loss": 1.8729,
      "step": 6914
    },
    {
      "epoch": 0.39243403338718363,
      "grad_norm": 0.29655224084854126,
      "learning_rate": 5e-05,
      "loss": 2.339,
      "step": 6915
    },
    {
      "epoch": 0.3925686591276252,
      "grad_norm": 0.286103755235672,
      "learning_rate": 5e-05,
      "loss": 1.8631,
      "step": 6916
    },
    {
      "epoch": 0.39270328486806677,
      "grad_norm": 0.3033708930015564,
      "learning_rate": 5e-05,
      "loss": 2.648,
      "step": 6917
    },
    {
      "epoch": 0.39283791060850837,
      "grad_norm": 0.26795780658721924,
      "learning_rate": 5e-05,
      "loss": 1.9868,
      "step": 6918
    },
    {
      "epoch": 0.3929725363489499,
      "grad_norm": 0.2796340882778168,
      "learning_rate": 5e-05,
      "loss": 1.8131,
      "step": 6919
    },
    {
      "epoch": 0.3931071620893915,
      "grad_norm": 0.2812488079071045,
      "learning_rate": 5e-05,
      "loss": 2.5134,
      "step": 6920
    },
    {
      "epoch": 0.39324178782983304,
      "grad_norm": 0.3496353328227997,
      "learning_rate": 5e-05,
      "loss": 2.2439,
      "step": 6921
    },
    {
      "epoch": 0.39337641357027464,
      "grad_norm": 0.26330628991127014,
      "learning_rate": 5e-05,
      "loss": 1.5697,
      "step": 6922
    },
    {
      "epoch": 0.3935110393107162,
      "grad_norm": 0.27767103910446167,
      "learning_rate": 5e-05,
      "loss": 1.6083,
      "step": 6923
    },
    {
      "epoch": 0.3936456650511578,
      "grad_norm": 0.29963967204093933,
      "learning_rate": 5e-05,
      "loss": 2.3493,
      "step": 6924
    },
    {
      "epoch": 0.3937802907915994,
      "grad_norm": 0.3424109220504761,
      "learning_rate": 5e-05,
      "loss": 2.751,
      "step": 6925
    },
    {
      "epoch": 0.3939149165320409,
      "grad_norm": 0.28458765149116516,
      "learning_rate": 5e-05,
      "loss": 2.0903,
      "step": 6926
    },
    {
      "epoch": 0.3940495422724825,
      "grad_norm": 0.27803874015808105,
      "learning_rate": 5e-05,
      "loss": 2.4546,
      "step": 6927
    },
    {
      "epoch": 0.39418416801292405,
      "grad_norm": 0.2723679542541504,
      "learning_rate": 5e-05,
      "loss": 1.6174,
      "step": 6928
    },
    {
      "epoch": 0.39431879375336565,
      "grad_norm": 0.3140887916088104,
      "learning_rate": 5e-05,
      "loss": 3.3339,
      "step": 6929
    },
    {
      "epoch": 0.3944534194938072,
      "grad_norm": 0.2897202968597412,
      "learning_rate": 5e-05,
      "loss": 1.8663,
      "step": 6930
    },
    {
      "epoch": 0.3945880452342488,
      "grad_norm": 0.2597114145755768,
      "learning_rate": 5e-05,
      "loss": 2.4658,
      "step": 6931
    },
    {
      "epoch": 0.3947226709746904,
      "grad_norm": 0.285064697265625,
      "learning_rate": 5e-05,
      "loss": 1.9514,
      "step": 6932
    },
    {
      "epoch": 0.3948572967151319,
      "grad_norm": 0.26764625310897827,
      "learning_rate": 5e-05,
      "loss": 1.85,
      "step": 6933
    },
    {
      "epoch": 0.3949919224555735,
      "grad_norm": 0.26828068494796753,
      "learning_rate": 5e-05,
      "loss": 1.6126,
      "step": 6934
    },
    {
      "epoch": 0.39512654819601506,
      "grad_norm": 0.27914172410964966,
      "learning_rate": 5e-05,
      "loss": 1.9157,
      "step": 6935
    },
    {
      "epoch": 0.39526117393645666,
      "grad_norm": 0.2936747670173645,
      "learning_rate": 5e-05,
      "loss": 2.1045,
      "step": 6936
    },
    {
      "epoch": 0.3953957996768982,
      "grad_norm": 0.30068546533584595,
      "learning_rate": 5e-05,
      "loss": 2.2484,
      "step": 6937
    },
    {
      "epoch": 0.3955304254173398,
      "grad_norm": 0.277415931224823,
      "learning_rate": 5e-05,
      "loss": 1.8404,
      "step": 6938
    },
    {
      "epoch": 0.3956650511577814,
      "grad_norm": 0.2660224735736847,
      "learning_rate": 5e-05,
      "loss": 1.599,
      "step": 6939
    },
    {
      "epoch": 0.39579967689822293,
      "grad_norm": 0.2595420479774475,
      "learning_rate": 5e-05,
      "loss": 1.9513,
      "step": 6940
    },
    {
      "epoch": 0.3959343026386645,
      "grad_norm": 0.2690730690956116,
      "learning_rate": 5e-05,
      "loss": 2.02,
      "step": 6941
    },
    {
      "epoch": 0.39606892837910607,
      "grad_norm": 0.2798181474208832,
      "learning_rate": 5e-05,
      "loss": 2.1167,
      "step": 6942
    },
    {
      "epoch": 0.39620355411954766,
      "grad_norm": 0.2783803641796112,
      "learning_rate": 5e-05,
      "loss": 2.2028,
      "step": 6943
    },
    {
      "epoch": 0.3963381798599892,
      "grad_norm": 0.2822116017341614,
      "learning_rate": 5e-05,
      "loss": 1.8098,
      "step": 6944
    },
    {
      "epoch": 0.3964728056004308,
      "grad_norm": 0.28571122884750366,
      "learning_rate": 5e-05,
      "loss": 2.2635,
      "step": 6945
    },
    {
      "epoch": 0.3966074313408724,
      "grad_norm": 0.27639907598495483,
      "learning_rate": 5e-05,
      "loss": 1.892,
      "step": 6946
    },
    {
      "epoch": 0.39674205708131394,
      "grad_norm": 0.34033113718032837,
      "learning_rate": 5e-05,
      "loss": 2.9391,
      "step": 6947
    },
    {
      "epoch": 0.39687668282175553,
      "grad_norm": 0.2966160774230957,
      "learning_rate": 5e-05,
      "loss": 2.488,
      "step": 6948
    },
    {
      "epoch": 0.3970113085621971,
      "grad_norm": 0.2559627592563629,
      "learning_rate": 5e-05,
      "loss": 1.5137,
      "step": 6949
    },
    {
      "epoch": 0.39714593430263867,
      "grad_norm": 0.258385568857193,
      "learning_rate": 5e-05,
      "loss": 1.6478,
      "step": 6950
    },
    {
      "epoch": 0.3972805600430802,
      "grad_norm": 0.3002854287624359,
      "learning_rate": 5e-05,
      "loss": 2.0664,
      "step": 6951
    },
    {
      "epoch": 0.3974151857835218,
      "grad_norm": 0.2772723138332367,
      "learning_rate": 5e-05,
      "loss": 2.6037,
      "step": 6952
    },
    {
      "epoch": 0.3975498115239634,
      "grad_norm": 0.3460528254508972,
      "learning_rate": 5e-05,
      "loss": 2.6448,
      "step": 6953
    },
    {
      "epoch": 0.39768443726440494,
      "grad_norm": 0.27616217732429504,
      "learning_rate": 5e-05,
      "loss": 1.9294,
      "step": 6954
    },
    {
      "epoch": 0.39781906300484654,
      "grad_norm": 0.27092307806015015,
      "learning_rate": 5e-05,
      "loss": 2.0954,
      "step": 6955
    },
    {
      "epoch": 0.3979536887452881,
      "grad_norm": 0.28326478600502014,
      "learning_rate": 5e-05,
      "loss": 2.0884,
      "step": 6956
    },
    {
      "epoch": 0.3980883144857297,
      "grad_norm": 0.4357164204120636,
      "learning_rate": 5e-05,
      "loss": 4.0512,
      "step": 6957
    },
    {
      "epoch": 0.3982229402261712,
      "grad_norm": 0.2715529203414917,
      "learning_rate": 5e-05,
      "loss": 2.6408,
      "step": 6958
    },
    {
      "epoch": 0.3983575659666128,
      "grad_norm": 0.29992878437042236,
      "learning_rate": 5e-05,
      "loss": 2.2137,
      "step": 6959
    },
    {
      "epoch": 0.3984921917070544,
      "grad_norm": 0.29663604497909546,
      "learning_rate": 5e-05,
      "loss": 1.8516,
      "step": 6960
    },
    {
      "epoch": 0.39862681744749595,
      "grad_norm": 0.2943686544895172,
      "learning_rate": 5e-05,
      "loss": 1.6079,
      "step": 6961
    },
    {
      "epoch": 0.39876144318793755,
      "grad_norm": 0.2859334945678711,
      "learning_rate": 5e-05,
      "loss": 1.9025,
      "step": 6962
    },
    {
      "epoch": 0.3988960689283791,
      "grad_norm": 0.2711827754974365,
      "learning_rate": 5e-05,
      "loss": 2.2364,
      "step": 6963
    },
    {
      "epoch": 0.3990306946688207,
      "grad_norm": 0.2660858929157257,
      "learning_rate": 5e-05,
      "loss": 1.6572,
      "step": 6964
    },
    {
      "epoch": 0.3991653204092622,
      "grad_norm": 0.30561938881874084,
      "learning_rate": 5e-05,
      "loss": 1.9298,
      "step": 6965
    },
    {
      "epoch": 0.3992999461497038,
      "grad_norm": 0.2751173675060272,
      "learning_rate": 5e-05,
      "loss": 1.8578,
      "step": 6966
    },
    {
      "epoch": 0.3994345718901454,
      "grad_norm": 0.2887246906757355,
      "learning_rate": 5e-05,
      "loss": 2.5935,
      "step": 6967
    },
    {
      "epoch": 0.39956919763058696,
      "grad_norm": 0.28863710165023804,
      "learning_rate": 5e-05,
      "loss": 1.8245,
      "step": 6968
    },
    {
      "epoch": 0.39970382337102855,
      "grad_norm": 0.261608749628067,
      "learning_rate": 5e-05,
      "loss": 1.6901,
      "step": 6969
    },
    {
      "epoch": 0.3998384491114701,
      "grad_norm": 0.2683146297931671,
      "learning_rate": 5e-05,
      "loss": 1.5582,
      "step": 6970
    },
    {
      "epoch": 0.3999730748519117,
      "grad_norm": 0.30675268173217773,
      "learning_rate": 5e-05,
      "loss": 2.1877,
      "step": 6971
    },
    {
      "epoch": 0.40010770059235323,
      "grad_norm": 0.28229933977127075,
      "learning_rate": 5e-05,
      "loss": 2.3511,
      "step": 6972
    },
    {
      "epoch": 0.40024232633279483,
      "grad_norm": 0.2882249653339386,
      "learning_rate": 5e-05,
      "loss": 2.0411,
      "step": 6973
    },
    {
      "epoch": 0.4003769520732364,
      "grad_norm": 0.2711956799030304,
      "learning_rate": 5e-05,
      "loss": 1.7808,
      "step": 6974
    },
    {
      "epoch": 0.40051157781367797,
      "grad_norm": 0.2954007387161255,
      "learning_rate": 5e-05,
      "loss": 2.4856,
      "step": 6975
    },
    {
      "epoch": 0.40064620355411956,
      "grad_norm": 0.23855304718017578,
      "learning_rate": 5e-05,
      "loss": 1.6169,
      "step": 6976
    },
    {
      "epoch": 0.4007808292945611,
      "grad_norm": 0.2987062633037567,
      "learning_rate": 5e-05,
      "loss": 2.1077,
      "step": 6977
    },
    {
      "epoch": 0.4009154550350027,
      "grad_norm": 0.27207982540130615,
      "learning_rate": 5e-05,
      "loss": 2.4004,
      "step": 6978
    },
    {
      "epoch": 0.40105008077544424,
      "grad_norm": 0.2861180305480957,
      "learning_rate": 5e-05,
      "loss": 1.9772,
      "step": 6979
    },
    {
      "epoch": 0.40118470651588584,
      "grad_norm": 0.34023308753967285,
      "learning_rate": 5e-05,
      "loss": 2.4714,
      "step": 6980
    },
    {
      "epoch": 0.40131933225632743,
      "grad_norm": 0.28959906101226807,
      "learning_rate": 5e-05,
      "loss": 2.262,
      "step": 6981
    },
    {
      "epoch": 0.401453957996769,
      "grad_norm": 0.2726660668849945,
      "learning_rate": 5e-05,
      "loss": 1.6882,
      "step": 6982
    },
    {
      "epoch": 0.40158858373721057,
      "grad_norm": 0.266492635011673,
      "learning_rate": 5e-05,
      "loss": 1.7726,
      "step": 6983
    },
    {
      "epoch": 0.4017232094776521,
      "grad_norm": 0.26132142543792725,
      "learning_rate": 5e-05,
      "loss": 1.8611,
      "step": 6984
    },
    {
      "epoch": 0.4018578352180937,
      "grad_norm": 0.414911687374115,
      "learning_rate": 5e-05,
      "loss": 3.329,
      "step": 6985
    },
    {
      "epoch": 0.40199246095853525,
      "grad_norm": 0.26318153738975525,
      "learning_rate": 5e-05,
      "loss": 1.6992,
      "step": 6986
    },
    {
      "epoch": 0.40212708669897684,
      "grad_norm": 0.3249046206474304,
      "learning_rate": 5e-05,
      "loss": 2.2694,
      "step": 6987
    },
    {
      "epoch": 0.40226171243941844,
      "grad_norm": 0.2802811563014984,
      "learning_rate": 5e-05,
      "loss": 1.7945,
      "step": 6988
    },
    {
      "epoch": 0.40239633817986,
      "grad_norm": 0.2651192247867584,
      "learning_rate": 5e-05,
      "loss": 1.821,
      "step": 6989
    },
    {
      "epoch": 0.4025309639203016,
      "grad_norm": 0.3001692593097687,
      "learning_rate": 5e-05,
      "loss": 2.4795,
      "step": 6990
    },
    {
      "epoch": 0.4026655896607431,
      "grad_norm": 0.27197396755218506,
      "learning_rate": 5e-05,
      "loss": 1.532,
      "step": 6991
    },
    {
      "epoch": 0.4028002154011847,
      "grad_norm": 0.2885909080505371,
      "learning_rate": 5e-05,
      "loss": 1.9951,
      "step": 6992
    },
    {
      "epoch": 0.40293484114162625,
      "grad_norm": 0.32406505942344666,
      "learning_rate": 5e-05,
      "loss": 2.6176,
      "step": 6993
    },
    {
      "epoch": 0.40306946688206785,
      "grad_norm": 0.31111612915992737,
      "learning_rate": 5e-05,
      "loss": 2.1304,
      "step": 6994
    },
    {
      "epoch": 0.40320409262250945,
      "grad_norm": 0.2577003240585327,
      "learning_rate": 5e-05,
      "loss": 1.7844,
      "step": 6995
    },
    {
      "epoch": 0.403338718362951,
      "grad_norm": 0.3577355146408081,
      "learning_rate": 5e-05,
      "loss": 2.5693,
      "step": 6996
    },
    {
      "epoch": 0.4034733441033926,
      "grad_norm": 0.2647152841091156,
      "learning_rate": 5e-05,
      "loss": 1.9032,
      "step": 6997
    },
    {
      "epoch": 0.4036079698438341,
      "grad_norm": 0.32250386476516724,
      "learning_rate": 5e-05,
      "loss": 2.9612,
      "step": 6998
    },
    {
      "epoch": 0.4037425955842757,
      "grad_norm": 0.27432364225387573,
      "learning_rate": 5e-05,
      "loss": 2.0193,
      "step": 6999
    },
    {
      "epoch": 0.40387722132471726,
      "grad_norm": 0.29978957772254944,
      "learning_rate": 5e-05,
      "loss": 2.384,
      "step": 7000
    },
    {
      "epoch": 0.40401184706515886,
      "grad_norm": 0.29937613010406494,
      "learning_rate": 5e-05,
      "loss": 1.8078,
      "step": 7001
    },
    {
      "epoch": 0.40414647280560045,
      "grad_norm": 0.2718600928783417,
      "learning_rate": 5e-05,
      "loss": 1.9529,
      "step": 7002
    },
    {
      "epoch": 0.404281098546042,
      "grad_norm": 0.2773618996143341,
      "learning_rate": 5e-05,
      "loss": 1.7554,
      "step": 7003
    },
    {
      "epoch": 0.4044157242864836,
      "grad_norm": 0.271170437335968,
      "learning_rate": 5e-05,
      "loss": 1.9636,
      "step": 7004
    },
    {
      "epoch": 0.40455035002692513,
      "grad_norm": 0.2672775983810425,
      "learning_rate": 5e-05,
      "loss": 1.675,
      "step": 7005
    },
    {
      "epoch": 0.40468497576736673,
      "grad_norm": 0.2739132344722748,
      "learning_rate": 5e-05,
      "loss": 1.9297,
      "step": 7006
    },
    {
      "epoch": 0.40481960150780827,
      "grad_norm": 0.35867270827293396,
      "learning_rate": 5e-05,
      "loss": 2.7814,
      "step": 7007
    },
    {
      "epoch": 0.40495422724824987,
      "grad_norm": 0.29776084423065186,
      "learning_rate": 5e-05,
      "loss": 1.9917,
      "step": 7008
    },
    {
      "epoch": 0.40508885298869146,
      "grad_norm": 0.2983585596084595,
      "learning_rate": 5e-05,
      "loss": 2.0234,
      "step": 7009
    },
    {
      "epoch": 0.405223478729133,
      "grad_norm": 0.261001318693161,
      "learning_rate": 5e-05,
      "loss": 1.9419,
      "step": 7010
    },
    {
      "epoch": 0.4053581044695746,
      "grad_norm": 0.2743009626865387,
      "learning_rate": 5e-05,
      "loss": 1.8053,
      "step": 7011
    },
    {
      "epoch": 0.40549273021001614,
      "grad_norm": 0.28475865721702576,
      "learning_rate": 5e-05,
      "loss": 1.9116,
      "step": 7012
    },
    {
      "epoch": 0.40562735595045774,
      "grad_norm": 0.28580141067504883,
      "learning_rate": 5e-05,
      "loss": 1.6959,
      "step": 7013
    },
    {
      "epoch": 0.4057619816908993,
      "grad_norm": 0.2725735008716583,
      "learning_rate": 5e-05,
      "loss": 2.0594,
      "step": 7014
    },
    {
      "epoch": 0.4058966074313409,
      "grad_norm": 0.26572251319885254,
      "learning_rate": 5e-05,
      "loss": 1.6619,
      "step": 7015
    },
    {
      "epoch": 0.40603123317178247,
      "grad_norm": 0.28226786851882935,
      "learning_rate": 5e-05,
      "loss": 1.7913,
      "step": 7016
    },
    {
      "epoch": 0.406165858912224,
      "grad_norm": 0.2981971800327301,
      "learning_rate": 5e-05,
      "loss": 2.3315,
      "step": 7017
    },
    {
      "epoch": 0.4063004846526656,
      "grad_norm": 0.2899841070175171,
      "learning_rate": 5e-05,
      "loss": 1.6121,
      "step": 7018
    },
    {
      "epoch": 0.40643511039310715,
      "grad_norm": 0.2944263815879822,
      "learning_rate": 5e-05,
      "loss": 1.8235,
      "step": 7019
    },
    {
      "epoch": 0.40656973613354874,
      "grad_norm": 0.2727692723274231,
      "learning_rate": 5e-05,
      "loss": 1.9053,
      "step": 7020
    },
    {
      "epoch": 0.4067043618739903,
      "grad_norm": 0.2590949535369873,
      "learning_rate": 5e-05,
      "loss": 1.9954,
      "step": 7021
    },
    {
      "epoch": 0.4068389876144319,
      "grad_norm": 0.2607289254665375,
      "learning_rate": 5e-05,
      "loss": 1.8807,
      "step": 7022
    },
    {
      "epoch": 0.4069736133548735,
      "grad_norm": 0.264018177986145,
      "learning_rate": 5e-05,
      "loss": 1.6614,
      "step": 7023
    },
    {
      "epoch": 0.407108239095315,
      "grad_norm": 0.3026408851146698,
      "learning_rate": 5e-05,
      "loss": 2.4973,
      "step": 7024
    },
    {
      "epoch": 0.4072428648357566,
      "grad_norm": 0.28243622183799744,
      "learning_rate": 5e-05,
      "loss": 2.0809,
      "step": 7025
    },
    {
      "epoch": 0.40737749057619815,
      "grad_norm": 0.25659123063087463,
      "learning_rate": 5e-05,
      "loss": 2.0348,
      "step": 7026
    },
    {
      "epoch": 0.40751211631663975,
      "grad_norm": 0.2708505392074585,
      "learning_rate": 5e-05,
      "loss": 2.2153,
      "step": 7027
    },
    {
      "epoch": 0.4076467420570813,
      "grad_norm": 0.27875587344169617,
      "learning_rate": 5e-05,
      "loss": 1.8156,
      "step": 7028
    },
    {
      "epoch": 0.4077813677975229,
      "grad_norm": 0.28268781304359436,
      "learning_rate": 5e-05,
      "loss": 1.7828,
      "step": 7029
    },
    {
      "epoch": 0.4079159935379645,
      "grad_norm": 0.2688795328140259,
      "learning_rate": 5e-05,
      "loss": 1.8466,
      "step": 7030
    },
    {
      "epoch": 0.408050619278406,
      "grad_norm": 0.2653495967388153,
      "learning_rate": 5e-05,
      "loss": 1.7554,
      "step": 7031
    },
    {
      "epoch": 0.4081852450188476,
      "grad_norm": 0.26742812991142273,
      "learning_rate": 5e-05,
      "loss": 1.7099,
      "step": 7032
    },
    {
      "epoch": 0.40831987075928916,
      "grad_norm": 0.2861579656600952,
      "learning_rate": 5e-05,
      "loss": 1.7894,
      "step": 7033
    },
    {
      "epoch": 0.40845449649973076,
      "grad_norm": 0.2991761565208435,
      "learning_rate": 5e-05,
      "loss": 2.1601,
      "step": 7034
    },
    {
      "epoch": 0.4085891222401723,
      "grad_norm": 0.27321648597717285,
      "learning_rate": 5e-05,
      "loss": 2.3685,
      "step": 7035
    },
    {
      "epoch": 0.4087237479806139,
      "grad_norm": 0.3274455666542053,
      "learning_rate": 5e-05,
      "loss": 2.6504,
      "step": 7036
    },
    {
      "epoch": 0.4088583737210555,
      "grad_norm": 0.30581870675086975,
      "learning_rate": 5e-05,
      "loss": 1.9573,
      "step": 7037
    },
    {
      "epoch": 0.40899299946149703,
      "grad_norm": 0.2893853187561035,
      "learning_rate": 5e-05,
      "loss": 2.2623,
      "step": 7038
    },
    {
      "epoch": 0.4091276252019386,
      "grad_norm": 0.307902067899704,
      "learning_rate": 5e-05,
      "loss": 2.1496,
      "step": 7039
    },
    {
      "epoch": 0.40926225094238017,
      "grad_norm": 0.48570746183395386,
      "learning_rate": 5e-05,
      "loss": 1.8822,
      "step": 7040
    },
    {
      "epoch": 0.40939687668282176,
      "grad_norm": 0.2656475901603699,
      "learning_rate": 5e-05,
      "loss": 1.6899,
      "step": 7041
    },
    {
      "epoch": 0.4095315024232633,
      "grad_norm": 0.2720571458339691,
      "learning_rate": 5e-05,
      "loss": 2.0258,
      "step": 7042
    },
    {
      "epoch": 0.4096661281637049,
      "grad_norm": 0.29373040795326233,
      "learning_rate": 5e-05,
      "loss": 2.5493,
      "step": 7043
    },
    {
      "epoch": 0.4098007539041465,
      "grad_norm": 0.2590208053588867,
      "learning_rate": 5e-05,
      "loss": 1.7537,
      "step": 7044
    },
    {
      "epoch": 0.40993537964458804,
      "grad_norm": 0.26713189482688904,
      "learning_rate": 5e-05,
      "loss": 1.5306,
      "step": 7045
    },
    {
      "epoch": 0.41007000538502963,
      "grad_norm": 0.5753971934318542,
      "learning_rate": 5e-05,
      "loss": 3.0662,
      "step": 7046
    },
    {
      "epoch": 0.4102046311254712,
      "grad_norm": 0.2649190127849579,
      "learning_rate": 5e-05,
      "loss": 1.974,
      "step": 7047
    },
    {
      "epoch": 0.41033925686591277,
      "grad_norm": 0.27990081906318665,
      "learning_rate": 5e-05,
      "loss": 2.03,
      "step": 7048
    },
    {
      "epoch": 0.4104738826063543,
      "grad_norm": 0.2650187611579895,
      "learning_rate": 5e-05,
      "loss": 1.7121,
      "step": 7049
    },
    {
      "epoch": 0.4106085083467959,
      "grad_norm": 0.2730429470539093,
      "learning_rate": 5e-05,
      "loss": 1.9048,
      "step": 7050
    },
    {
      "epoch": 0.4107431340872375,
      "grad_norm": 0.280312180519104,
      "learning_rate": 5e-05,
      "loss": 2.0908,
      "step": 7051
    },
    {
      "epoch": 0.41087775982767905,
      "grad_norm": 0.28419265151023865,
      "learning_rate": 5e-05,
      "loss": 2.0072,
      "step": 7052
    },
    {
      "epoch": 0.41101238556812064,
      "grad_norm": 0.28139829635620117,
      "learning_rate": 5e-05,
      "loss": 2.079,
      "step": 7053
    },
    {
      "epoch": 0.4111470113085622,
      "grad_norm": 0.28509411215782166,
      "learning_rate": 5e-05,
      "loss": 2.0014,
      "step": 7054
    },
    {
      "epoch": 0.4112816370490038,
      "grad_norm": 0.2610342800617218,
      "learning_rate": 5e-05,
      "loss": 1.8478,
      "step": 7055
    },
    {
      "epoch": 0.4114162627894453,
      "grad_norm": 0.29671627283096313,
      "learning_rate": 5e-05,
      "loss": 2.3449,
      "step": 7056
    },
    {
      "epoch": 0.4115508885298869,
      "grad_norm": 0.2816999554634094,
      "learning_rate": 5e-05,
      "loss": 2.1014,
      "step": 7057
    },
    {
      "epoch": 0.4116855142703285,
      "grad_norm": 0.2755742371082306,
      "learning_rate": 5e-05,
      "loss": 1.8685,
      "step": 7058
    },
    {
      "epoch": 0.41182014001077005,
      "grad_norm": 0.266463965177536,
      "learning_rate": 5e-05,
      "loss": 1.52,
      "step": 7059
    },
    {
      "epoch": 0.41195476575121165,
      "grad_norm": 0.3581376075744629,
      "learning_rate": 5e-05,
      "loss": 3.2818,
      "step": 7060
    },
    {
      "epoch": 0.4120893914916532,
      "grad_norm": 0.2821296751499176,
      "learning_rate": 5e-05,
      "loss": 2.0879,
      "step": 7061
    },
    {
      "epoch": 0.4122240172320948,
      "grad_norm": 0.34933018684387207,
      "learning_rate": 5e-05,
      "loss": 2.3086,
      "step": 7062
    },
    {
      "epoch": 0.4123586429725363,
      "grad_norm": 0.3071155548095703,
      "learning_rate": 5e-05,
      "loss": 2.8455,
      "step": 7063
    },
    {
      "epoch": 0.4124932687129779,
      "grad_norm": 0.3030577003955841,
      "learning_rate": 5e-05,
      "loss": 1.7077,
      "step": 7064
    },
    {
      "epoch": 0.4126278944534195,
      "grad_norm": 0.34991249442100525,
      "learning_rate": 5e-05,
      "loss": 1.8105,
      "step": 7065
    },
    {
      "epoch": 0.41276252019386106,
      "grad_norm": 0.2998620569705963,
      "learning_rate": 5e-05,
      "loss": 1.8871,
      "step": 7066
    },
    {
      "epoch": 0.41289714593430266,
      "grad_norm": 0.3390461504459381,
      "learning_rate": 5e-05,
      "loss": 2.9811,
      "step": 7067
    },
    {
      "epoch": 0.4130317716747442,
      "grad_norm": 0.2959141135215759,
      "learning_rate": 5e-05,
      "loss": 2.3801,
      "step": 7068
    },
    {
      "epoch": 0.4131663974151858,
      "grad_norm": 0.33176344633102417,
      "learning_rate": 5e-05,
      "loss": 3.1115,
      "step": 7069
    },
    {
      "epoch": 0.41330102315562733,
      "grad_norm": 0.27425315976142883,
      "learning_rate": 5e-05,
      "loss": 2.0121,
      "step": 7070
    },
    {
      "epoch": 0.41343564889606893,
      "grad_norm": 0.2977762222290039,
      "learning_rate": 5e-05,
      "loss": 1.8026,
      "step": 7071
    },
    {
      "epoch": 0.4135702746365105,
      "grad_norm": 0.30833110213279724,
      "learning_rate": 5e-05,
      "loss": 2.5858,
      "step": 7072
    },
    {
      "epoch": 0.41370490037695207,
      "grad_norm": 0.33176082372665405,
      "learning_rate": 5e-05,
      "loss": 3.0324,
      "step": 7073
    },
    {
      "epoch": 0.41383952611739366,
      "grad_norm": 0.33197376132011414,
      "learning_rate": 5e-05,
      "loss": 3.2483,
      "step": 7074
    },
    {
      "epoch": 0.4139741518578352,
      "grad_norm": 0.28707095980644226,
      "learning_rate": 5e-05,
      "loss": 2.0174,
      "step": 7075
    },
    {
      "epoch": 0.4141087775982768,
      "grad_norm": 0.2985037863254547,
      "learning_rate": 5e-05,
      "loss": 2.1183,
      "step": 7076
    },
    {
      "epoch": 0.41424340333871834,
      "grad_norm": 0.26652583479881287,
      "learning_rate": 5e-05,
      "loss": 1.6671,
      "step": 7077
    },
    {
      "epoch": 0.41437802907915994,
      "grad_norm": 0.3553982675075531,
      "learning_rate": 5e-05,
      "loss": 3.3767,
      "step": 7078
    },
    {
      "epoch": 0.41451265481960153,
      "grad_norm": 0.3032638728618622,
      "learning_rate": 5e-05,
      "loss": 2.7299,
      "step": 7079
    },
    {
      "epoch": 0.4146472805600431,
      "grad_norm": 0.27842605113983154,
      "learning_rate": 5e-05,
      "loss": 1.8687,
      "step": 7080
    },
    {
      "epoch": 0.41478190630048467,
      "grad_norm": 0.2577568590641022,
      "learning_rate": 5e-05,
      "loss": 1.883,
      "step": 7081
    },
    {
      "epoch": 0.4149165320409262,
      "grad_norm": 0.28140851855278015,
      "learning_rate": 5e-05,
      "loss": 2.7809,
      "step": 7082
    },
    {
      "epoch": 0.4150511577813678,
      "grad_norm": 0.2831346094608307,
      "learning_rate": 5e-05,
      "loss": 1.8699,
      "step": 7083
    },
    {
      "epoch": 0.41518578352180935,
      "grad_norm": 0.4515477418899536,
      "learning_rate": 5e-05,
      "loss": 2.9837,
      "step": 7084
    },
    {
      "epoch": 0.41532040926225094,
      "grad_norm": 0.29243019223213196,
      "learning_rate": 5e-05,
      "loss": 1.8478,
      "step": 7085
    },
    {
      "epoch": 0.41545503500269254,
      "grad_norm": 0.275538831949234,
      "learning_rate": 5e-05,
      "loss": 1.7435,
      "step": 7086
    },
    {
      "epoch": 0.4155896607431341,
      "grad_norm": 0.31186723709106445,
      "learning_rate": 5e-05,
      "loss": 2.1083,
      "step": 7087
    },
    {
      "epoch": 0.4157242864835757,
      "grad_norm": 0.2681691348552704,
      "learning_rate": 5e-05,
      "loss": 1.7082,
      "step": 7088
    },
    {
      "epoch": 0.4158589122240172,
      "grad_norm": 0.29656434059143066,
      "learning_rate": 5e-05,
      "loss": 2.1325,
      "step": 7089
    },
    {
      "epoch": 0.4159935379644588,
      "grad_norm": 0.2463805228471756,
      "learning_rate": 5e-05,
      "loss": 1.5766,
      "step": 7090
    },
    {
      "epoch": 0.41612816370490036,
      "grad_norm": 0.2744431793689728,
      "learning_rate": 5e-05,
      "loss": 2.2259,
      "step": 7091
    },
    {
      "epoch": 0.41626278944534195,
      "grad_norm": 0.27398669719696045,
      "learning_rate": 5e-05,
      "loss": 2.0452,
      "step": 7092
    },
    {
      "epoch": 0.41639741518578355,
      "grad_norm": 0.4473118185997009,
      "learning_rate": 5e-05,
      "loss": 2.0657,
      "step": 7093
    },
    {
      "epoch": 0.4165320409262251,
      "grad_norm": 0.2769079804420471,
      "learning_rate": 5e-05,
      "loss": 2.091,
      "step": 7094
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.27157536149024963,
      "learning_rate": 5e-05,
      "loss": 1.8609,
      "step": 7095
    },
    {
      "epoch": 0.4168012924071082,
      "grad_norm": 0.28115710616111755,
      "learning_rate": 5e-05,
      "loss": 2.1198,
      "step": 7096
    },
    {
      "epoch": 0.4169359181475498,
      "grad_norm": 0.31487175822257996,
      "learning_rate": 5e-05,
      "loss": 2.2551,
      "step": 7097
    },
    {
      "epoch": 0.41707054388799136,
      "grad_norm": 0.33674898743629456,
      "learning_rate": 5e-05,
      "loss": 2.3202,
      "step": 7098
    },
    {
      "epoch": 0.41720516962843296,
      "grad_norm": 0.2919161021709442,
      "learning_rate": 5e-05,
      "loss": 2.0594,
      "step": 7099
    },
    {
      "epoch": 0.41733979536887456,
      "grad_norm": 0.2746279537677765,
      "learning_rate": 5e-05,
      "loss": 2.0378,
      "step": 7100
    },
    {
      "epoch": 0.4174744211093161,
      "grad_norm": 0.33944830298423767,
      "learning_rate": 5e-05,
      "loss": 2.1326,
      "step": 7101
    },
    {
      "epoch": 0.4176090468497577,
      "grad_norm": 0.29634302854537964,
      "learning_rate": 5e-05,
      "loss": 2.1775,
      "step": 7102
    },
    {
      "epoch": 0.41774367259019923,
      "grad_norm": 0.2768416404724121,
      "learning_rate": 5e-05,
      "loss": 1.6804,
      "step": 7103
    },
    {
      "epoch": 0.41787829833064083,
      "grad_norm": 0.278575599193573,
      "learning_rate": 5e-05,
      "loss": 2.0613,
      "step": 7104
    },
    {
      "epoch": 0.41801292407108237,
      "grad_norm": 0.26650452613830566,
      "learning_rate": 5e-05,
      "loss": 1.9401,
      "step": 7105
    },
    {
      "epoch": 0.41814754981152397,
      "grad_norm": 0.2663062810897827,
      "learning_rate": 5e-05,
      "loss": 1.9749,
      "step": 7106
    },
    {
      "epoch": 0.41828217555196556,
      "grad_norm": 0.2957003712654114,
      "learning_rate": 5e-05,
      "loss": 2.2722,
      "step": 7107
    },
    {
      "epoch": 0.4184168012924071,
      "grad_norm": 0.294023334980011,
      "learning_rate": 5e-05,
      "loss": 2.0961,
      "step": 7108
    },
    {
      "epoch": 0.4185514270328487,
      "grad_norm": 0.30734971165657043,
      "learning_rate": 5e-05,
      "loss": 1.8139,
      "step": 7109
    },
    {
      "epoch": 0.41868605277329024,
      "grad_norm": 0.2535752058029175,
      "learning_rate": 5e-05,
      "loss": 1.76,
      "step": 7110
    },
    {
      "epoch": 0.41882067851373184,
      "grad_norm": 0.29343461990356445,
      "learning_rate": 5e-05,
      "loss": 2.3233,
      "step": 7111
    },
    {
      "epoch": 0.4189553042541734,
      "grad_norm": 0.2762182056903839,
      "learning_rate": 5e-05,
      "loss": 2.0118,
      "step": 7112
    },
    {
      "epoch": 0.419089929994615,
      "grad_norm": 0.2748168408870697,
      "learning_rate": 5e-05,
      "loss": 1.7597,
      "step": 7113
    },
    {
      "epoch": 0.41922455573505657,
      "grad_norm": 0.2722039818763733,
      "learning_rate": 5e-05,
      "loss": 1.727,
      "step": 7114
    },
    {
      "epoch": 0.4193591814754981,
      "grad_norm": 0.27555978298187256,
      "learning_rate": 5e-05,
      "loss": 1.7435,
      "step": 7115
    },
    {
      "epoch": 0.4194938072159397,
      "grad_norm": 0.29758644104003906,
      "learning_rate": 5e-05,
      "loss": 1.7793,
      "step": 7116
    },
    {
      "epoch": 0.41962843295638125,
      "grad_norm": 0.4215194880962372,
      "learning_rate": 5e-05,
      "loss": 3.0857,
      "step": 7117
    },
    {
      "epoch": 0.41976305869682284,
      "grad_norm": 0.2929658889770508,
      "learning_rate": 5e-05,
      "loss": 1.8831,
      "step": 7118
    },
    {
      "epoch": 0.4198976844372644,
      "grad_norm": 0.31835654377937317,
      "learning_rate": 5e-05,
      "loss": 2.0676,
      "step": 7119
    },
    {
      "epoch": 0.420032310177706,
      "grad_norm": 0.27381232380867004,
      "learning_rate": 5e-05,
      "loss": 2.579,
      "step": 7120
    },
    {
      "epoch": 0.4201669359181476,
      "grad_norm": 0.30837541818618774,
      "learning_rate": 5e-05,
      "loss": 2.0213,
      "step": 7121
    },
    {
      "epoch": 0.4203015616585891,
      "grad_norm": 0.27923697233200073,
      "learning_rate": 5e-05,
      "loss": 2.0743,
      "step": 7122
    },
    {
      "epoch": 0.4204361873990307,
      "grad_norm": 0.2830471098423004,
      "learning_rate": 5e-05,
      "loss": 2.2222,
      "step": 7123
    },
    {
      "epoch": 0.42057081313947225,
      "grad_norm": 0.2798752188682556,
      "learning_rate": 5e-05,
      "loss": 1.8553,
      "step": 7124
    },
    {
      "epoch": 0.42070543887991385,
      "grad_norm": 0.27925851941108704,
      "learning_rate": 5e-05,
      "loss": 1.837,
      "step": 7125
    },
    {
      "epoch": 0.4208400646203554,
      "grad_norm": 0.308395117521286,
      "learning_rate": 5e-05,
      "loss": 2.5847,
      "step": 7126
    },
    {
      "epoch": 0.420974690360797,
      "grad_norm": 0.36662808060646057,
      "learning_rate": 5e-05,
      "loss": 2.9856,
      "step": 7127
    },
    {
      "epoch": 0.4211093161012386,
      "grad_norm": 0.2850657105445862,
      "learning_rate": 5e-05,
      "loss": 2.5465,
      "step": 7128
    },
    {
      "epoch": 0.4212439418416801,
      "grad_norm": 0.2746746838092804,
      "learning_rate": 5e-05,
      "loss": 1.7487,
      "step": 7129
    },
    {
      "epoch": 0.4213785675821217,
      "grad_norm": 0.42804205417633057,
      "learning_rate": 5e-05,
      "loss": 2.8206,
      "step": 7130
    },
    {
      "epoch": 0.42151319332256326,
      "grad_norm": 0.3219347298145294,
      "learning_rate": 5e-05,
      "loss": 2.189,
      "step": 7131
    },
    {
      "epoch": 0.42164781906300486,
      "grad_norm": 0.2875598967075348,
      "learning_rate": 5e-05,
      "loss": 2.0703,
      "step": 7132
    },
    {
      "epoch": 0.4217824448034464,
      "grad_norm": 0.2681349217891693,
      "learning_rate": 5e-05,
      "loss": 1.6239,
      "step": 7133
    },
    {
      "epoch": 0.421917070543888,
      "grad_norm": 0.30485740303993225,
      "learning_rate": 5e-05,
      "loss": 1.9906,
      "step": 7134
    },
    {
      "epoch": 0.42205169628432954,
      "grad_norm": 0.2813027501106262,
      "learning_rate": 5e-05,
      "loss": 1.7878,
      "step": 7135
    },
    {
      "epoch": 0.42218632202477113,
      "grad_norm": 0.27855461835861206,
      "learning_rate": 5e-05,
      "loss": 2.1391,
      "step": 7136
    },
    {
      "epoch": 0.42232094776521273,
      "grad_norm": 0.2932795286178589,
      "learning_rate": 5e-05,
      "loss": 1.7841,
      "step": 7137
    },
    {
      "epoch": 0.42245557350565427,
      "grad_norm": 0.2737009823322296,
      "learning_rate": 5e-05,
      "loss": 1.823,
      "step": 7138
    },
    {
      "epoch": 0.42259019924609587,
      "grad_norm": 0.25875550508499146,
      "learning_rate": 5e-05,
      "loss": 1.8112,
      "step": 7139
    },
    {
      "epoch": 0.4227248249865374,
      "grad_norm": 0.26934003829956055,
      "learning_rate": 5e-05,
      "loss": 1.6806,
      "step": 7140
    },
    {
      "epoch": 0.422859450726979,
      "grad_norm": 0.26714619994163513,
      "learning_rate": 5e-05,
      "loss": 1.7168,
      "step": 7141
    },
    {
      "epoch": 0.42299407646742054,
      "grad_norm": 0.28516045212745667,
      "learning_rate": 5e-05,
      "loss": 1.9855,
      "step": 7142
    },
    {
      "epoch": 0.42312870220786214,
      "grad_norm": 0.2694595158100128,
      "learning_rate": 5e-05,
      "loss": 1.7936,
      "step": 7143
    },
    {
      "epoch": 0.42326332794830374,
      "grad_norm": 0.29909709095954895,
      "learning_rate": 5e-05,
      "loss": 2.3699,
      "step": 7144
    },
    {
      "epoch": 0.4233979536887453,
      "grad_norm": 0.2631370425224304,
      "learning_rate": 5e-05,
      "loss": 1.6401,
      "step": 7145
    },
    {
      "epoch": 0.4235325794291869,
      "grad_norm": 0.2744547724723816,
      "learning_rate": 5e-05,
      "loss": 1.9011,
      "step": 7146
    },
    {
      "epoch": 0.4236672051696284,
      "grad_norm": 0.25688233971595764,
      "learning_rate": 5e-05,
      "loss": 1.8098,
      "step": 7147
    },
    {
      "epoch": 0.42380183091007,
      "grad_norm": 0.2601986229419708,
      "learning_rate": 5e-05,
      "loss": 1.86,
      "step": 7148
    },
    {
      "epoch": 0.42393645665051155,
      "grad_norm": 0.26838380098342896,
      "learning_rate": 5e-05,
      "loss": 1.7113,
      "step": 7149
    },
    {
      "epoch": 0.42407108239095315,
      "grad_norm": 0.29398444294929504,
      "learning_rate": 5e-05,
      "loss": 2.0993,
      "step": 7150
    },
    {
      "epoch": 0.42420570813139474,
      "grad_norm": 0.2604008913040161,
      "learning_rate": 5e-05,
      "loss": 1.6336,
      "step": 7151
    },
    {
      "epoch": 0.4243403338718363,
      "grad_norm": 0.2830577492713928,
      "learning_rate": 5e-05,
      "loss": 1.7102,
      "step": 7152
    },
    {
      "epoch": 0.4244749596122779,
      "grad_norm": 0.28491267561912537,
      "learning_rate": 5e-05,
      "loss": 1.9481,
      "step": 7153
    },
    {
      "epoch": 0.4246095853527194,
      "grad_norm": 0.27050891518592834,
      "learning_rate": 5e-05,
      "loss": 1.7312,
      "step": 7154
    },
    {
      "epoch": 0.424744211093161,
      "grad_norm": 0.38073402643203735,
      "learning_rate": 5e-05,
      "loss": 2.2651,
      "step": 7155
    },
    {
      "epoch": 0.42487883683360256,
      "grad_norm": 0.3055669367313385,
      "learning_rate": 5e-05,
      "loss": 2.3927,
      "step": 7156
    },
    {
      "epoch": 0.42501346257404415,
      "grad_norm": 0.25868484377861023,
      "learning_rate": 5e-05,
      "loss": 1.4851,
      "step": 7157
    },
    {
      "epoch": 0.42514808831448575,
      "grad_norm": 0.3287520110607147,
      "learning_rate": 5e-05,
      "loss": 2.3023,
      "step": 7158
    },
    {
      "epoch": 0.4252827140549273,
      "grad_norm": 0.262174129486084,
      "learning_rate": 5e-05,
      "loss": 1.8067,
      "step": 7159
    },
    {
      "epoch": 0.4254173397953689,
      "grad_norm": 0.27615880966186523,
      "learning_rate": 5e-05,
      "loss": 1.5877,
      "step": 7160
    },
    {
      "epoch": 0.42555196553581043,
      "grad_norm": 0.2617279291152954,
      "learning_rate": 5e-05,
      "loss": 1.8802,
      "step": 7161
    },
    {
      "epoch": 0.425686591276252,
      "grad_norm": 0.2761627733707428,
      "learning_rate": 5e-05,
      "loss": 1.9466,
      "step": 7162
    },
    {
      "epoch": 0.42582121701669357,
      "grad_norm": 0.2795993983745575,
      "learning_rate": 5e-05,
      "loss": 2.2109,
      "step": 7163
    },
    {
      "epoch": 0.42595584275713516,
      "grad_norm": 0.2907421588897705,
      "learning_rate": 5e-05,
      "loss": 1.8012,
      "step": 7164
    },
    {
      "epoch": 0.42609046849757676,
      "grad_norm": 0.26957014203071594,
      "learning_rate": 5e-05,
      "loss": 2.0772,
      "step": 7165
    },
    {
      "epoch": 0.4262250942380183,
      "grad_norm": 0.27391138672828674,
      "learning_rate": 5e-05,
      "loss": 1.8327,
      "step": 7166
    },
    {
      "epoch": 0.4263597199784599,
      "grad_norm": 0.34765923023223877,
      "learning_rate": 5e-05,
      "loss": 2.7999,
      "step": 7167
    },
    {
      "epoch": 0.42649434571890144,
      "grad_norm": 0.2681125998497009,
      "learning_rate": 5e-05,
      "loss": 1.7473,
      "step": 7168
    },
    {
      "epoch": 0.42662897145934303,
      "grad_norm": 0.2883746325969696,
      "learning_rate": 5e-05,
      "loss": 1.9521,
      "step": 7169
    },
    {
      "epoch": 0.4267635971997846,
      "grad_norm": 0.2897852957248688,
      "learning_rate": 5e-05,
      "loss": 2.2087,
      "step": 7170
    },
    {
      "epoch": 0.42689822294022617,
      "grad_norm": 0.26740938425064087,
      "learning_rate": 5e-05,
      "loss": 1.8842,
      "step": 7171
    },
    {
      "epoch": 0.42703284868066776,
      "grad_norm": 0.25734975934028625,
      "learning_rate": 5e-05,
      "loss": 1.6094,
      "step": 7172
    },
    {
      "epoch": 0.4271674744211093,
      "grad_norm": 0.3092866539955139,
      "learning_rate": 5e-05,
      "loss": 2.456,
      "step": 7173
    },
    {
      "epoch": 0.4273021001615509,
      "grad_norm": 0.2622087001800537,
      "learning_rate": 5e-05,
      "loss": 1.6679,
      "step": 7174
    },
    {
      "epoch": 0.42743672590199244,
      "grad_norm": 0.2706212103366852,
      "learning_rate": 5e-05,
      "loss": 1.9198,
      "step": 7175
    },
    {
      "epoch": 0.42757135164243404,
      "grad_norm": 0.27510520815849304,
      "learning_rate": 5e-05,
      "loss": 1.8346,
      "step": 7176
    },
    {
      "epoch": 0.4277059773828756,
      "grad_norm": 0.26864874362945557,
      "learning_rate": 5e-05,
      "loss": 1.9082,
      "step": 7177
    },
    {
      "epoch": 0.4278406031233172,
      "grad_norm": 0.26433753967285156,
      "learning_rate": 5e-05,
      "loss": 1.9712,
      "step": 7178
    },
    {
      "epoch": 0.42797522886375877,
      "grad_norm": 0.29492172598838806,
      "learning_rate": 5e-05,
      "loss": 1.761,
      "step": 7179
    },
    {
      "epoch": 0.4281098546042003,
      "grad_norm": 0.2754409909248352,
      "learning_rate": 5e-05,
      "loss": 1.96,
      "step": 7180
    },
    {
      "epoch": 0.4282444803446419,
      "grad_norm": 0.27959001064300537,
      "learning_rate": 5e-05,
      "loss": 1.9401,
      "step": 7181
    },
    {
      "epoch": 0.42837910608508345,
      "grad_norm": 0.2710772156715393,
      "learning_rate": 5e-05,
      "loss": 1.7212,
      "step": 7182
    },
    {
      "epoch": 0.42851373182552505,
      "grad_norm": 0.26529011130332947,
      "learning_rate": 5e-05,
      "loss": 1.6511,
      "step": 7183
    },
    {
      "epoch": 0.4286483575659666,
      "grad_norm": 0.28552213311195374,
      "learning_rate": 5e-05,
      "loss": 2.296,
      "step": 7184
    },
    {
      "epoch": 0.4287829833064082,
      "grad_norm": 0.4815586507320404,
      "learning_rate": 5e-05,
      "loss": 3.4773,
      "step": 7185
    },
    {
      "epoch": 0.4289176090468498,
      "grad_norm": 0.2731594443321228,
      "learning_rate": 5e-05,
      "loss": 1.729,
      "step": 7186
    },
    {
      "epoch": 0.4290522347872913,
      "grad_norm": 0.2841009497642517,
      "learning_rate": 5e-05,
      "loss": 1.763,
      "step": 7187
    },
    {
      "epoch": 0.4291868605277329,
      "grad_norm": 0.307187020778656,
      "learning_rate": 5e-05,
      "loss": 2.5092,
      "step": 7188
    },
    {
      "epoch": 0.42932148626817446,
      "grad_norm": 0.31377026438713074,
      "learning_rate": 5e-05,
      "loss": 2.2799,
      "step": 7189
    },
    {
      "epoch": 0.42945611200861605,
      "grad_norm": 0.2824179530143738,
      "learning_rate": 5e-05,
      "loss": 1.8436,
      "step": 7190
    },
    {
      "epoch": 0.4295907377490576,
      "grad_norm": 0.27466246485710144,
      "learning_rate": 5e-05,
      "loss": 2.5602,
      "step": 7191
    },
    {
      "epoch": 0.4297253634894992,
      "grad_norm": 0.26648855209350586,
      "learning_rate": 5e-05,
      "loss": 2.0059,
      "step": 7192
    },
    {
      "epoch": 0.4298599892299408,
      "grad_norm": 0.284549355506897,
      "learning_rate": 5e-05,
      "loss": 1.8634,
      "step": 7193
    },
    {
      "epoch": 0.4299946149703823,
      "grad_norm": 0.36631831526756287,
      "learning_rate": 5e-05,
      "loss": 4.0001,
      "step": 7194
    },
    {
      "epoch": 0.4301292407108239,
      "grad_norm": 0.26919203996658325,
      "learning_rate": 5e-05,
      "loss": 1.7862,
      "step": 7195
    },
    {
      "epoch": 0.43026386645126546,
      "grad_norm": 0.3001508414745331,
      "learning_rate": 5e-05,
      "loss": 2.5992,
      "step": 7196
    },
    {
      "epoch": 0.43039849219170706,
      "grad_norm": 0.2988874316215515,
      "learning_rate": 5e-05,
      "loss": 1.8705,
      "step": 7197
    },
    {
      "epoch": 0.4305331179321486,
      "grad_norm": 0.3001289665699005,
      "learning_rate": 5e-05,
      "loss": 1.8053,
      "step": 7198
    },
    {
      "epoch": 0.4306677436725902,
      "grad_norm": 0.26961684226989746,
      "learning_rate": 5e-05,
      "loss": 1.9591,
      "step": 7199
    },
    {
      "epoch": 0.4308023694130318,
      "grad_norm": 0.3142613172531128,
      "learning_rate": 5e-05,
      "loss": 2.2698,
      "step": 7200
    },
    {
      "epoch": 0.43093699515347333,
      "grad_norm": 0.2940138876438141,
      "learning_rate": 5e-05,
      "loss": 1.9458,
      "step": 7201
    },
    {
      "epoch": 0.43107162089391493,
      "grad_norm": 0.2803823947906494,
      "learning_rate": 5e-05,
      "loss": 2.0718,
      "step": 7202
    },
    {
      "epoch": 0.43120624663435647,
      "grad_norm": 0.2891351580619812,
      "learning_rate": 5e-05,
      "loss": 1.8002,
      "step": 7203
    },
    {
      "epoch": 0.43134087237479807,
      "grad_norm": 0.2845553159713745,
      "learning_rate": 5e-05,
      "loss": 1.7746,
      "step": 7204
    },
    {
      "epoch": 0.4314754981152396,
      "grad_norm": 0.28460565209388733,
      "learning_rate": 5e-05,
      "loss": 1.7921,
      "step": 7205
    },
    {
      "epoch": 0.4316101238556812,
      "grad_norm": 0.3018737733364105,
      "learning_rate": 5e-05,
      "loss": 2.0286,
      "step": 7206
    },
    {
      "epoch": 0.4317447495961228,
      "grad_norm": 0.2719767093658447,
      "learning_rate": 5e-05,
      "loss": 1.638,
      "step": 7207
    },
    {
      "epoch": 0.43187937533656434,
      "grad_norm": 0.2570526599884033,
      "learning_rate": 5e-05,
      "loss": 1.5794,
      "step": 7208
    },
    {
      "epoch": 0.43201400107700594,
      "grad_norm": 0.2693425416946411,
      "learning_rate": 5e-05,
      "loss": 2.0527,
      "step": 7209
    },
    {
      "epoch": 0.4321486268174475,
      "grad_norm": 0.27840036153793335,
      "learning_rate": 5e-05,
      "loss": 1.88,
      "step": 7210
    },
    {
      "epoch": 0.4322832525578891,
      "grad_norm": 0.4338986873626709,
      "learning_rate": 5e-05,
      "loss": 2.5532,
      "step": 7211
    },
    {
      "epoch": 0.4324178782983306,
      "grad_norm": 0.2867671847343445,
      "learning_rate": 5e-05,
      "loss": 1.7721,
      "step": 7212
    },
    {
      "epoch": 0.4325525040387722,
      "grad_norm": 0.28386759757995605,
      "learning_rate": 5e-05,
      "loss": 1.9916,
      "step": 7213
    },
    {
      "epoch": 0.4326871297792138,
      "grad_norm": 0.26475319266319275,
      "learning_rate": 5e-05,
      "loss": 1.8979,
      "step": 7214
    },
    {
      "epoch": 0.43282175551965535,
      "grad_norm": 0.2750594913959503,
      "learning_rate": 5e-05,
      "loss": 1.9183,
      "step": 7215
    },
    {
      "epoch": 0.43295638126009695,
      "grad_norm": 0.3720661997795105,
      "learning_rate": 5e-05,
      "loss": 2.6845,
      "step": 7216
    },
    {
      "epoch": 0.4330910070005385,
      "grad_norm": 0.27082177996635437,
      "learning_rate": 5e-05,
      "loss": 1.9025,
      "step": 7217
    },
    {
      "epoch": 0.4332256327409801,
      "grad_norm": 0.2874435782432556,
      "learning_rate": 5e-05,
      "loss": 2.1133,
      "step": 7218
    },
    {
      "epoch": 0.4333602584814216,
      "grad_norm": 0.3462386727333069,
      "learning_rate": 5e-05,
      "loss": 2.1824,
      "step": 7219
    },
    {
      "epoch": 0.4334948842218632,
      "grad_norm": 0.3032034933567047,
      "learning_rate": 5e-05,
      "loss": 2.0799,
      "step": 7220
    },
    {
      "epoch": 0.4336295099623048,
      "grad_norm": 0.28616541624069214,
      "learning_rate": 5e-05,
      "loss": 1.9446,
      "step": 7221
    },
    {
      "epoch": 0.43376413570274636,
      "grad_norm": 0.274464875459671,
      "learning_rate": 5e-05,
      "loss": 1.9911,
      "step": 7222
    },
    {
      "epoch": 0.43389876144318795,
      "grad_norm": 0.26208072900772095,
      "learning_rate": 5e-05,
      "loss": 1.6133,
      "step": 7223
    },
    {
      "epoch": 0.4340333871836295,
      "grad_norm": 0.281014621257782,
      "learning_rate": 5e-05,
      "loss": 1.9888,
      "step": 7224
    },
    {
      "epoch": 0.4341680129240711,
      "grad_norm": 0.32183220982551575,
      "learning_rate": 5e-05,
      "loss": 2.3778,
      "step": 7225
    },
    {
      "epoch": 0.43430263866451263,
      "grad_norm": 0.29559287428855896,
      "learning_rate": 5e-05,
      "loss": 3.1239,
      "step": 7226
    },
    {
      "epoch": 0.4344372644049542,
      "grad_norm": 0.2666212022304535,
      "learning_rate": 5e-05,
      "loss": 2.1246,
      "step": 7227
    },
    {
      "epoch": 0.4345718901453958,
      "grad_norm": 0.2651662528514862,
      "learning_rate": 5e-05,
      "loss": 2.6045,
      "step": 7228
    },
    {
      "epoch": 0.43470651588583736,
      "grad_norm": 0.277273952960968,
      "learning_rate": 5e-05,
      "loss": 1.7672,
      "step": 7229
    },
    {
      "epoch": 0.43484114162627896,
      "grad_norm": 0.2831922471523285,
      "learning_rate": 5e-05,
      "loss": 2.1597,
      "step": 7230
    },
    {
      "epoch": 0.4349757673667205,
      "grad_norm": 0.3239602744579315,
      "learning_rate": 5e-05,
      "loss": 2.3992,
      "step": 7231
    },
    {
      "epoch": 0.4351103931071621,
      "grad_norm": 0.26971209049224854,
      "learning_rate": 5e-05,
      "loss": 1.5183,
      "step": 7232
    },
    {
      "epoch": 0.43524501884760364,
      "grad_norm": 0.26809099316596985,
      "learning_rate": 5e-05,
      "loss": 1.753,
      "step": 7233
    },
    {
      "epoch": 0.43537964458804523,
      "grad_norm": 0.28219717741012573,
      "learning_rate": 5e-05,
      "loss": 1.5619,
      "step": 7234
    },
    {
      "epoch": 0.43551427032848683,
      "grad_norm": 0.27057209610939026,
      "learning_rate": 5e-05,
      "loss": 2.4342,
      "step": 7235
    },
    {
      "epoch": 0.43564889606892837,
      "grad_norm": 0.3046090006828308,
      "learning_rate": 5e-05,
      "loss": 2.6129,
      "step": 7236
    },
    {
      "epoch": 0.43578352180936997,
      "grad_norm": 0.2662452757358551,
      "learning_rate": 5e-05,
      "loss": 1.6621,
      "step": 7237
    },
    {
      "epoch": 0.4359181475498115,
      "grad_norm": 0.2685949504375458,
      "learning_rate": 5e-05,
      "loss": 1.5684,
      "step": 7238
    },
    {
      "epoch": 0.4360527732902531,
      "grad_norm": 0.29632067680358887,
      "learning_rate": 5e-05,
      "loss": 2.3384,
      "step": 7239
    },
    {
      "epoch": 0.43618739903069464,
      "grad_norm": 0.28482702374458313,
      "learning_rate": 5e-05,
      "loss": 1.9893,
      "step": 7240
    },
    {
      "epoch": 0.43632202477113624,
      "grad_norm": 0.279775470495224,
      "learning_rate": 5e-05,
      "loss": 1.9807,
      "step": 7241
    },
    {
      "epoch": 0.43645665051157784,
      "grad_norm": 0.282474547624588,
      "learning_rate": 5e-05,
      "loss": 2.063,
      "step": 7242
    },
    {
      "epoch": 0.4365912762520194,
      "grad_norm": 0.29244861006736755,
      "learning_rate": 5e-05,
      "loss": 2.3129,
      "step": 7243
    },
    {
      "epoch": 0.436725901992461,
      "grad_norm": 0.3142073452472687,
      "learning_rate": 5e-05,
      "loss": 2.2986,
      "step": 7244
    },
    {
      "epoch": 0.4368605277329025,
      "grad_norm": 0.26289859414100647,
      "learning_rate": 5e-05,
      "loss": 1.4976,
      "step": 7245
    },
    {
      "epoch": 0.4369951534733441,
      "grad_norm": 0.2695675194263458,
      "learning_rate": 5e-05,
      "loss": 1.6948,
      "step": 7246
    },
    {
      "epoch": 0.43712977921378565,
      "grad_norm": 0.2738354802131653,
      "learning_rate": 5e-05,
      "loss": 1.9044,
      "step": 7247
    },
    {
      "epoch": 0.43726440495422725,
      "grad_norm": 0.29910996556282043,
      "learning_rate": 5e-05,
      "loss": 2.4653,
      "step": 7248
    },
    {
      "epoch": 0.43739903069466884,
      "grad_norm": 0.2857799828052521,
      "learning_rate": 5e-05,
      "loss": 2.2757,
      "step": 7249
    },
    {
      "epoch": 0.4375336564351104,
      "grad_norm": 0.3005700409412384,
      "learning_rate": 5e-05,
      "loss": 2.2153,
      "step": 7250
    },
    {
      "epoch": 0.437668282175552,
      "grad_norm": 0.3025291860103607,
      "learning_rate": 5e-05,
      "loss": 2.4918,
      "step": 7251
    },
    {
      "epoch": 0.4378029079159935,
      "grad_norm": 0.2790459394454956,
      "learning_rate": 5e-05,
      "loss": 2.4875,
      "step": 7252
    },
    {
      "epoch": 0.4379375336564351,
      "grad_norm": 0.27441656589508057,
      "learning_rate": 5e-05,
      "loss": 1.8016,
      "step": 7253
    },
    {
      "epoch": 0.43807215939687666,
      "grad_norm": 0.260532945394516,
      "learning_rate": 5e-05,
      "loss": 1.7384,
      "step": 7254
    },
    {
      "epoch": 0.43820678513731826,
      "grad_norm": 0.3059574365615845,
      "learning_rate": 5e-05,
      "loss": 2.2893,
      "step": 7255
    },
    {
      "epoch": 0.43834141087775985,
      "grad_norm": 0.2687003016471863,
      "learning_rate": 5e-05,
      "loss": 1.7307,
      "step": 7256
    },
    {
      "epoch": 0.4384760366182014,
      "grad_norm": 0.2675270736217499,
      "learning_rate": 5e-05,
      "loss": 1.4546,
      "step": 7257
    },
    {
      "epoch": 0.438610662358643,
      "grad_norm": 0.2671952545642853,
      "learning_rate": 5e-05,
      "loss": 1.8456,
      "step": 7258
    },
    {
      "epoch": 0.43874528809908453,
      "grad_norm": 0.27586838603019714,
      "learning_rate": 5e-05,
      "loss": 1.7008,
      "step": 7259
    },
    {
      "epoch": 0.4388799138395261,
      "grad_norm": 0.28867828845977783,
      "learning_rate": 5e-05,
      "loss": 1.8743,
      "step": 7260
    },
    {
      "epoch": 0.43901453957996767,
      "grad_norm": 0.27389124035835266,
      "learning_rate": 5e-05,
      "loss": 1.8818,
      "step": 7261
    },
    {
      "epoch": 0.43914916532040926,
      "grad_norm": 0.5584020614624023,
      "learning_rate": 5e-05,
      "loss": 3.1498,
      "step": 7262
    },
    {
      "epoch": 0.43928379106085086,
      "grad_norm": 0.3141966760158539,
      "learning_rate": 5e-05,
      "loss": 2.3508,
      "step": 7263
    },
    {
      "epoch": 0.4394184168012924,
      "grad_norm": 0.2822728455066681,
      "learning_rate": 5e-05,
      "loss": 1.8929,
      "step": 7264
    },
    {
      "epoch": 0.439553042541734,
      "grad_norm": 0.295991450548172,
      "learning_rate": 5e-05,
      "loss": 1.6486,
      "step": 7265
    },
    {
      "epoch": 0.43968766828217554,
      "grad_norm": 0.30045655369758606,
      "learning_rate": 5e-05,
      "loss": 2.6704,
      "step": 7266
    },
    {
      "epoch": 0.43982229402261713,
      "grad_norm": 0.31123727560043335,
      "learning_rate": 5e-05,
      "loss": 2.281,
      "step": 7267
    },
    {
      "epoch": 0.4399569197630587,
      "grad_norm": 0.27963948249816895,
      "learning_rate": 5e-05,
      "loss": 1.6984,
      "step": 7268
    },
    {
      "epoch": 0.44009154550350027,
      "grad_norm": 0.2844028174877167,
      "learning_rate": 5e-05,
      "loss": 1.8819,
      "step": 7269
    },
    {
      "epoch": 0.44022617124394187,
      "grad_norm": 0.26888200640678406,
      "learning_rate": 5e-05,
      "loss": 1.7951,
      "step": 7270
    },
    {
      "epoch": 0.4403607969843834,
      "grad_norm": 0.27500057220458984,
      "learning_rate": 5e-05,
      "loss": 2.174,
      "step": 7271
    },
    {
      "epoch": 0.440495422724825,
      "grad_norm": 0.27617672085762024,
      "learning_rate": 5e-05,
      "loss": 1.9554,
      "step": 7272
    },
    {
      "epoch": 0.44063004846526654,
      "grad_norm": 0.2778605818748474,
      "learning_rate": 5e-05,
      "loss": 2.0596,
      "step": 7273
    },
    {
      "epoch": 0.44076467420570814,
      "grad_norm": 0.46410566568374634,
      "learning_rate": 5e-05,
      "loss": 3.0018,
      "step": 7274
    },
    {
      "epoch": 0.4408992999461497,
      "grad_norm": 0.2640519142150879,
      "learning_rate": 5e-05,
      "loss": 1.714,
      "step": 7275
    },
    {
      "epoch": 0.4410339256865913,
      "grad_norm": 0.30082786083221436,
      "learning_rate": 5e-05,
      "loss": 2.0973,
      "step": 7276
    },
    {
      "epoch": 0.4411685514270329,
      "grad_norm": 0.32771503925323486,
      "learning_rate": 5e-05,
      "loss": 2.1923,
      "step": 7277
    },
    {
      "epoch": 0.4413031771674744,
      "grad_norm": 0.27221688628196716,
      "learning_rate": 5e-05,
      "loss": 1.7235,
      "step": 7278
    },
    {
      "epoch": 0.441437802907916,
      "grad_norm": 0.2731632888317108,
      "learning_rate": 5e-05,
      "loss": 1.4908,
      "step": 7279
    },
    {
      "epoch": 0.44157242864835755,
      "grad_norm": 0.33130136132240295,
      "learning_rate": 5e-05,
      "loss": 3.2474,
      "step": 7280
    },
    {
      "epoch": 0.44170705438879915,
      "grad_norm": 0.3037896156311035,
      "learning_rate": 5e-05,
      "loss": 2.739,
      "step": 7281
    },
    {
      "epoch": 0.4418416801292407,
      "grad_norm": 0.2690258026123047,
      "learning_rate": 5e-05,
      "loss": 1.7193,
      "step": 7282
    },
    {
      "epoch": 0.4419763058696823,
      "grad_norm": 0.42201775312423706,
      "learning_rate": 5e-05,
      "loss": 3.3876,
      "step": 7283
    },
    {
      "epoch": 0.4421109316101239,
      "grad_norm": 0.27828481793403625,
      "learning_rate": 5e-05,
      "loss": 1.8747,
      "step": 7284
    },
    {
      "epoch": 0.4422455573505654,
      "grad_norm": 0.2581008970737457,
      "learning_rate": 5e-05,
      "loss": 1.635,
      "step": 7285
    },
    {
      "epoch": 0.442380183091007,
      "grad_norm": 0.2655848264694214,
      "learning_rate": 5e-05,
      "loss": 1.6146,
      "step": 7286
    },
    {
      "epoch": 0.44251480883144856,
      "grad_norm": 0.3160049319267273,
      "learning_rate": 5e-05,
      "loss": 2.0424,
      "step": 7287
    },
    {
      "epoch": 0.44264943457189015,
      "grad_norm": 0.288490891456604,
      "learning_rate": 5e-05,
      "loss": 2.1134,
      "step": 7288
    },
    {
      "epoch": 0.4427840603123317,
      "grad_norm": 0.2610641121864319,
      "learning_rate": 5e-05,
      "loss": 1.6711,
      "step": 7289
    },
    {
      "epoch": 0.4429186860527733,
      "grad_norm": 0.280021071434021,
      "learning_rate": 5e-05,
      "loss": 1.837,
      "step": 7290
    },
    {
      "epoch": 0.4430533117932149,
      "grad_norm": 0.26371365785598755,
      "learning_rate": 5e-05,
      "loss": 1.747,
      "step": 7291
    },
    {
      "epoch": 0.44318793753365643,
      "grad_norm": 0.3522063195705414,
      "learning_rate": 5e-05,
      "loss": 2.5013,
      "step": 7292
    },
    {
      "epoch": 0.443322563274098,
      "grad_norm": 0.30612656474113464,
      "learning_rate": 5e-05,
      "loss": 2.9322,
      "step": 7293
    },
    {
      "epoch": 0.44345718901453957,
      "grad_norm": 0.2788381576538086,
      "learning_rate": 5e-05,
      "loss": 1.6983,
      "step": 7294
    },
    {
      "epoch": 0.44359181475498116,
      "grad_norm": 0.29045823216438293,
      "learning_rate": 5e-05,
      "loss": 1.9855,
      "step": 7295
    },
    {
      "epoch": 0.4437264404954227,
      "grad_norm": 0.28005117177963257,
      "learning_rate": 5e-05,
      "loss": 1.5601,
      "step": 7296
    },
    {
      "epoch": 0.4438610662358643,
      "grad_norm": 0.26322707533836365,
      "learning_rate": 5e-05,
      "loss": 1.6854,
      "step": 7297
    },
    {
      "epoch": 0.4439956919763059,
      "grad_norm": 0.26838377118110657,
      "learning_rate": 5e-05,
      "loss": 1.7471,
      "step": 7298
    },
    {
      "epoch": 0.44413031771674744,
      "grad_norm": 0.28021109104156494,
      "learning_rate": 5e-05,
      "loss": 1.6528,
      "step": 7299
    },
    {
      "epoch": 0.44426494345718903,
      "grad_norm": 0.29301926493644714,
      "learning_rate": 5e-05,
      "loss": 2.7653,
      "step": 7300
    },
    {
      "epoch": 0.4443995691976306,
      "grad_norm": 0.27565401792526245,
      "learning_rate": 5e-05,
      "loss": 2.1474,
      "step": 7301
    },
    {
      "epoch": 0.44453419493807217,
      "grad_norm": 0.29661688208580017,
      "learning_rate": 5e-05,
      "loss": 2.2912,
      "step": 7302
    },
    {
      "epoch": 0.4446688206785137,
      "grad_norm": 0.28011688590049744,
      "learning_rate": 5e-05,
      "loss": 1.9994,
      "step": 7303
    },
    {
      "epoch": 0.4448034464189553,
      "grad_norm": 0.3416803181171417,
      "learning_rate": 5e-05,
      "loss": 2.904,
      "step": 7304
    },
    {
      "epoch": 0.4449380721593969,
      "grad_norm": 0.43405553698539734,
      "learning_rate": 5e-05,
      "loss": 3.1208,
      "step": 7305
    },
    {
      "epoch": 0.44507269789983844,
      "grad_norm": 0.3314187526702881,
      "learning_rate": 5e-05,
      "loss": 2.1729,
      "step": 7306
    },
    {
      "epoch": 0.44520732364028004,
      "grad_norm": 0.3411256670951843,
      "learning_rate": 5e-05,
      "loss": 2.2872,
      "step": 7307
    },
    {
      "epoch": 0.4453419493807216,
      "grad_norm": 0.27773094177246094,
      "learning_rate": 5e-05,
      "loss": 1.9024,
      "step": 7308
    },
    {
      "epoch": 0.4454765751211632,
      "grad_norm": 0.304635226726532,
      "learning_rate": 5e-05,
      "loss": 2.0747,
      "step": 7309
    },
    {
      "epoch": 0.4456112008616047,
      "grad_norm": 0.26304495334625244,
      "learning_rate": 5e-05,
      "loss": 1.7393,
      "step": 7310
    },
    {
      "epoch": 0.4457458266020463,
      "grad_norm": 0.2668801248073578,
      "learning_rate": 5e-05,
      "loss": 1.8335,
      "step": 7311
    },
    {
      "epoch": 0.4458804523424879,
      "grad_norm": 0.30558669567108154,
      "learning_rate": 5e-05,
      "loss": 2.283,
      "step": 7312
    },
    {
      "epoch": 0.44601507808292945,
      "grad_norm": 0.25934621691703796,
      "learning_rate": 5e-05,
      "loss": 1.7985,
      "step": 7313
    },
    {
      "epoch": 0.44614970382337105,
      "grad_norm": 0.2863030433654785,
      "learning_rate": 5e-05,
      "loss": 1.795,
      "step": 7314
    },
    {
      "epoch": 0.4462843295638126,
      "grad_norm": 0.33626648783683777,
      "learning_rate": 5e-05,
      "loss": 2.5976,
      "step": 7315
    },
    {
      "epoch": 0.4464189553042542,
      "grad_norm": 0.30405887961387634,
      "learning_rate": 5e-05,
      "loss": 2.4128,
      "step": 7316
    },
    {
      "epoch": 0.4465535810446957,
      "grad_norm": 0.3091641366481781,
      "learning_rate": 5e-05,
      "loss": 1.635,
      "step": 7317
    },
    {
      "epoch": 0.4466882067851373,
      "grad_norm": 0.29483821988105774,
      "learning_rate": 5e-05,
      "loss": 1.9208,
      "step": 7318
    },
    {
      "epoch": 0.4468228325255789,
      "grad_norm": 0.280851811170578,
      "learning_rate": 5e-05,
      "loss": 2.0544,
      "step": 7319
    },
    {
      "epoch": 0.44695745826602046,
      "grad_norm": 0.29191040992736816,
      "learning_rate": 5e-05,
      "loss": 1.961,
      "step": 7320
    },
    {
      "epoch": 0.44709208400646205,
      "grad_norm": 0.2976101338863373,
      "learning_rate": 5e-05,
      "loss": 1.9102,
      "step": 7321
    },
    {
      "epoch": 0.4472267097469036,
      "grad_norm": 0.2680201828479767,
      "learning_rate": 5e-05,
      "loss": 1.5741,
      "step": 7322
    },
    {
      "epoch": 0.4473613354873452,
      "grad_norm": 0.287925660610199,
      "learning_rate": 5e-05,
      "loss": 2.0605,
      "step": 7323
    },
    {
      "epoch": 0.44749596122778673,
      "grad_norm": 0.273529976606369,
      "learning_rate": 5e-05,
      "loss": 1.9088,
      "step": 7324
    },
    {
      "epoch": 0.44763058696822833,
      "grad_norm": 0.31288012862205505,
      "learning_rate": 5e-05,
      "loss": 2.7441,
      "step": 7325
    },
    {
      "epoch": 0.4477652127086699,
      "grad_norm": 0.2933759093284607,
      "learning_rate": 5e-05,
      "loss": 2.069,
      "step": 7326
    },
    {
      "epoch": 0.44789983844911146,
      "grad_norm": 0.4482659101486206,
      "learning_rate": 5e-05,
      "loss": 3.0337,
      "step": 7327
    },
    {
      "epoch": 0.44803446418955306,
      "grad_norm": 0.2998768091201782,
      "learning_rate": 5e-05,
      "loss": 1.9521,
      "step": 7328
    },
    {
      "epoch": 0.4481690899299946,
      "grad_norm": 0.2785640358924866,
      "learning_rate": 5e-05,
      "loss": 1.6993,
      "step": 7329
    },
    {
      "epoch": 0.4483037156704362,
      "grad_norm": 0.28775104880332947,
      "learning_rate": 5e-05,
      "loss": 1.9652,
      "step": 7330
    },
    {
      "epoch": 0.44843834141087774,
      "grad_norm": 0.2752230167388916,
      "learning_rate": 5e-05,
      "loss": 1.8147,
      "step": 7331
    },
    {
      "epoch": 0.44857296715131934,
      "grad_norm": 0.26994574069976807,
      "learning_rate": 5e-05,
      "loss": 1.7617,
      "step": 7332
    },
    {
      "epoch": 0.44870759289176093,
      "grad_norm": 0.3289142847061157,
      "learning_rate": 5e-05,
      "loss": 2.2801,
      "step": 7333
    },
    {
      "epoch": 0.44884221863220247,
      "grad_norm": 0.3039356768131256,
      "learning_rate": 5e-05,
      "loss": 2.2887,
      "step": 7334
    },
    {
      "epoch": 0.44897684437264407,
      "grad_norm": 0.26822930574417114,
      "learning_rate": 5e-05,
      "loss": 1.7,
      "step": 7335
    },
    {
      "epoch": 0.4491114701130856,
      "grad_norm": 0.28935113549232483,
      "learning_rate": 5e-05,
      "loss": 1.8716,
      "step": 7336
    },
    {
      "epoch": 0.4492460958535272,
      "grad_norm": 0.2854759991168976,
      "learning_rate": 5e-05,
      "loss": 2.5094,
      "step": 7337
    },
    {
      "epoch": 0.44938072159396875,
      "grad_norm": 0.2813822031021118,
      "learning_rate": 5e-05,
      "loss": 1.9562,
      "step": 7338
    },
    {
      "epoch": 0.44951534733441034,
      "grad_norm": 0.2706635594367981,
      "learning_rate": 5e-05,
      "loss": 1.6218,
      "step": 7339
    },
    {
      "epoch": 0.44964997307485194,
      "grad_norm": 0.29016411304473877,
      "learning_rate": 5e-05,
      "loss": 2.4521,
      "step": 7340
    },
    {
      "epoch": 0.4497845988152935,
      "grad_norm": 0.2631412148475647,
      "learning_rate": 5e-05,
      "loss": 2.6772,
      "step": 7341
    },
    {
      "epoch": 0.4499192245557351,
      "grad_norm": 0.26959165930747986,
      "learning_rate": 5e-05,
      "loss": 2.4606,
      "step": 7342
    },
    {
      "epoch": 0.4500538502961766,
      "grad_norm": 0.32784146070480347,
      "learning_rate": 5e-05,
      "loss": 2.1009,
      "step": 7343
    },
    {
      "epoch": 0.4501884760366182,
      "grad_norm": 0.28123053908348083,
      "learning_rate": 5e-05,
      "loss": 1.7194,
      "step": 7344
    },
    {
      "epoch": 0.45032310177705975,
      "grad_norm": 0.32383158802986145,
      "learning_rate": 5e-05,
      "loss": 2.8263,
      "step": 7345
    },
    {
      "epoch": 0.45045772751750135,
      "grad_norm": 0.277726411819458,
      "learning_rate": 5e-05,
      "loss": 1.8859,
      "step": 7346
    },
    {
      "epoch": 0.45059235325794295,
      "grad_norm": 0.3168037533760071,
      "learning_rate": 5e-05,
      "loss": 3.0729,
      "step": 7347
    },
    {
      "epoch": 0.4507269789983845,
      "grad_norm": 0.3189401924610138,
      "learning_rate": 5e-05,
      "loss": 2.0457,
      "step": 7348
    },
    {
      "epoch": 0.4508616047388261,
      "grad_norm": 0.2805459797382355,
      "learning_rate": 5e-05,
      "loss": 1.9889,
      "step": 7349
    },
    {
      "epoch": 0.4509962304792676,
      "grad_norm": 0.30651983618736267,
      "learning_rate": 5e-05,
      "loss": 2.5173,
      "step": 7350
    },
    {
      "epoch": 0.4511308562197092,
      "grad_norm": 0.2871166169643402,
      "learning_rate": 5e-05,
      "loss": 1.6744,
      "step": 7351
    },
    {
      "epoch": 0.45126548196015076,
      "grad_norm": 0.6381680369377136,
      "learning_rate": 5e-05,
      "loss": 3.5735,
      "step": 7352
    },
    {
      "epoch": 0.45140010770059236,
      "grad_norm": 0.29727089405059814,
      "learning_rate": 5e-05,
      "loss": 3.1692,
      "step": 7353
    },
    {
      "epoch": 0.45153473344103395,
      "grad_norm": 0.2745249271392822,
      "learning_rate": 5e-05,
      "loss": 1.9172,
      "step": 7354
    },
    {
      "epoch": 0.4516693591814755,
      "grad_norm": 0.28575316071510315,
      "learning_rate": 5e-05,
      "loss": 1.7702,
      "step": 7355
    },
    {
      "epoch": 0.4518039849219171,
      "grad_norm": 0.2856506109237671,
      "learning_rate": 5e-05,
      "loss": 2.0949,
      "step": 7356
    },
    {
      "epoch": 0.45193861066235863,
      "grad_norm": 0.27909544110298157,
      "learning_rate": 5e-05,
      "loss": 1.5589,
      "step": 7357
    },
    {
      "epoch": 0.4520732364028002,
      "grad_norm": 0.3085222840309143,
      "learning_rate": 5e-05,
      "loss": 1.9304,
      "step": 7358
    },
    {
      "epoch": 0.45220786214324177,
      "grad_norm": 0.2724930942058563,
      "learning_rate": 5e-05,
      "loss": 1.8102,
      "step": 7359
    },
    {
      "epoch": 0.45234248788368336,
      "grad_norm": 0.302399605512619,
      "learning_rate": 5e-05,
      "loss": 2.9078,
      "step": 7360
    },
    {
      "epoch": 0.45247711362412496,
      "grad_norm": 0.30547034740448,
      "learning_rate": 5e-05,
      "loss": 2.0112,
      "step": 7361
    },
    {
      "epoch": 0.4526117393645665,
      "grad_norm": 0.2995515465736389,
      "learning_rate": 5e-05,
      "loss": 1.6167,
      "step": 7362
    },
    {
      "epoch": 0.4527463651050081,
      "grad_norm": 0.2678034007549286,
      "learning_rate": 5e-05,
      "loss": 1.6244,
      "step": 7363
    },
    {
      "epoch": 0.45288099084544964,
      "grad_norm": 0.2789309620857239,
      "learning_rate": 5e-05,
      "loss": 1.8459,
      "step": 7364
    },
    {
      "epoch": 0.45301561658589123,
      "grad_norm": 0.29247432947158813,
      "learning_rate": 5e-05,
      "loss": 2.1618,
      "step": 7365
    },
    {
      "epoch": 0.4531502423263328,
      "grad_norm": 0.2877894937992096,
      "learning_rate": 5e-05,
      "loss": 2.0732,
      "step": 7366
    },
    {
      "epoch": 0.45328486806677437,
      "grad_norm": 0.2742161154747009,
      "learning_rate": 5e-05,
      "loss": 1.8238,
      "step": 7367
    },
    {
      "epoch": 0.4534194938072159,
      "grad_norm": 0.3216037154197693,
      "learning_rate": 5e-05,
      "loss": 2.232,
      "step": 7368
    },
    {
      "epoch": 0.4535541195476575,
      "grad_norm": 0.27175411581993103,
      "learning_rate": 5e-05,
      "loss": 1.7175,
      "step": 7369
    },
    {
      "epoch": 0.4536887452880991,
      "grad_norm": 0.27869710326194763,
      "learning_rate": 5e-05,
      "loss": 1.7337,
      "step": 7370
    },
    {
      "epoch": 0.45382337102854065,
      "grad_norm": 0.27948862314224243,
      "learning_rate": 5e-05,
      "loss": 1.9628,
      "step": 7371
    },
    {
      "epoch": 0.45395799676898224,
      "grad_norm": 0.2760571241378784,
      "learning_rate": 5e-05,
      "loss": 1.698,
      "step": 7372
    },
    {
      "epoch": 0.4540926225094238,
      "grad_norm": 0.290473997592926,
      "learning_rate": 5e-05,
      "loss": 1.6611,
      "step": 7373
    },
    {
      "epoch": 0.4542272482498654,
      "grad_norm": 0.36930161714553833,
      "learning_rate": 5e-05,
      "loss": 2.4682,
      "step": 7374
    },
    {
      "epoch": 0.4543618739903069,
      "grad_norm": 0.29024824500083923,
      "learning_rate": 5e-05,
      "loss": 2.1759,
      "step": 7375
    },
    {
      "epoch": 0.4544964997307485,
      "grad_norm": 0.2782420516014099,
      "learning_rate": 5e-05,
      "loss": 2.0605,
      "step": 7376
    },
    {
      "epoch": 0.4546311254711901,
      "grad_norm": 0.29545503854751587,
      "learning_rate": 5e-05,
      "loss": 1.7675,
      "step": 7377
    },
    {
      "epoch": 0.45476575121163165,
      "grad_norm": 0.3247586488723755,
      "learning_rate": 5e-05,
      "loss": 2.1132,
      "step": 7378
    },
    {
      "epoch": 0.45490037695207325,
      "grad_norm": 0.2677384912967682,
      "learning_rate": 5e-05,
      "loss": 1.8667,
      "step": 7379
    },
    {
      "epoch": 0.4550350026925148,
      "grad_norm": 0.319443941116333,
      "learning_rate": 5e-05,
      "loss": 2.4612,
      "step": 7380
    },
    {
      "epoch": 0.4551696284329564,
      "grad_norm": 0.2669217586517334,
      "learning_rate": 5e-05,
      "loss": 1.9603,
      "step": 7381
    },
    {
      "epoch": 0.4553042541733979,
      "grad_norm": 0.31008195877075195,
      "learning_rate": 5e-05,
      "loss": 2.0904,
      "step": 7382
    },
    {
      "epoch": 0.4554388799138395,
      "grad_norm": 0.4545009136199951,
      "learning_rate": 5e-05,
      "loss": 2.7909,
      "step": 7383
    },
    {
      "epoch": 0.4555735056542811,
      "grad_norm": 0.25588423013687134,
      "learning_rate": 5e-05,
      "loss": 1.5376,
      "step": 7384
    },
    {
      "epoch": 0.45570813139472266,
      "grad_norm": 0.33652958273887634,
      "learning_rate": 5e-05,
      "loss": 2.4138,
      "step": 7385
    },
    {
      "epoch": 0.45584275713516426,
      "grad_norm": 0.32170915603637695,
      "learning_rate": 5e-05,
      "loss": 2.5935,
      "step": 7386
    },
    {
      "epoch": 0.4559773828756058,
      "grad_norm": 0.3135426342487335,
      "learning_rate": 5e-05,
      "loss": 2.1063,
      "step": 7387
    },
    {
      "epoch": 0.4561120086160474,
      "grad_norm": 0.3056323230266571,
      "learning_rate": 5e-05,
      "loss": 1.8823,
      "step": 7388
    },
    {
      "epoch": 0.45624663435648893,
      "grad_norm": 0.2820066213607788,
      "learning_rate": 5e-05,
      "loss": 1.7728,
      "step": 7389
    },
    {
      "epoch": 0.45638126009693053,
      "grad_norm": 0.2910960912704468,
      "learning_rate": 5e-05,
      "loss": 1.7781,
      "step": 7390
    },
    {
      "epoch": 0.4565158858373721,
      "grad_norm": 0.30482593178749084,
      "learning_rate": 5e-05,
      "loss": 1.6609,
      "step": 7391
    },
    {
      "epoch": 0.45665051157781367,
      "grad_norm": 0.29122501611709595,
      "learning_rate": 5e-05,
      "loss": 1.9296,
      "step": 7392
    },
    {
      "epoch": 0.45678513731825526,
      "grad_norm": 0.29369017481803894,
      "learning_rate": 5e-05,
      "loss": 2.2348,
      "step": 7393
    },
    {
      "epoch": 0.4569197630586968,
      "grad_norm": 0.268478661775589,
      "learning_rate": 5e-05,
      "loss": 1.7508,
      "step": 7394
    },
    {
      "epoch": 0.4570543887991384,
      "grad_norm": 0.272209495306015,
      "learning_rate": 5e-05,
      "loss": 1.9381,
      "step": 7395
    },
    {
      "epoch": 0.45718901453957994,
      "grad_norm": 0.28218331933021545,
      "learning_rate": 5e-05,
      "loss": 1.7368,
      "step": 7396
    },
    {
      "epoch": 0.45732364028002154,
      "grad_norm": 0.3294009566307068,
      "learning_rate": 5e-05,
      "loss": 2.3246,
      "step": 7397
    },
    {
      "epoch": 0.45745826602046313,
      "grad_norm": 0.26208195090293884,
      "learning_rate": 5e-05,
      "loss": 1.9652,
      "step": 7398
    },
    {
      "epoch": 0.4575928917609047,
      "grad_norm": 0.27847033739089966,
      "learning_rate": 5e-05,
      "loss": 1.9088,
      "step": 7399
    },
    {
      "epoch": 0.45772751750134627,
      "grad_norm": 0.31843945384025574,
      "learning_rate": 5e-05,
      "loss": 3.0167,
      "step": 7400
    },
    {
      "epoch": 0.4578621432417878,
      "grad_norm": 0.2828401029109955,
      "learning_rate": 5e-05,
      "loss": 1.8677,
      "step": 7401
    },
    {
      "epoch": 0.4579967689822294,
      "grad_norm": 0.35334107279777527,
      "learning_rate": 5e-05,
      "loss": 3.0864,
      "step": 7402
    },
    {
      "epoch": 0.45813139472267095,
      "grad_norm": 0.26792216300964355,
      "learning_rate": 5e-05,
      "loss": 2.284,
      "step": 7403
    },
    {
      "epoch": 0.45826602046311254,
      "grad_norm": 0.28543561697006226,
      "learning_rate": 5e-05,
      "loss": 2.6773,
      "step": 7404
    },
    {
      "epoch": 0.45840064620355414,
      "grad_norm": 0.2902719974517822,
      "learning_rate": 5e-05,
      "loss": 2.8266,
      "step": 7405
    },
    {
      "epoch": 0.4585352719439957,
      "grad_norm": 0.28034037351608276,
      "learning_rate": 5e-05,
      "loss": 1.9092,
      "step": 7406
    },
    {
      "epoch": 0.4586698976844373,
      "grad_norm": 0.2768154740333557,
      "learning_rate": 5e-05,
      "loss": 2.0949,
      "step": 7407
    },
    {
      "epoch": 0.4588045234248788,
      "grad_norm": 0.26856210827827454,
      "learning_rate": 5e-05,
      "loss": 2.1589,
      "step": 7408
    },
    {
      "epoch": 0.4589391491653204,
      "grad_norm": 0.282937616109848,
      "learning_rate": 5e-05,
      "loss": 2.7084,
      "step": 7409
    },
    {
      "epoch": 0.45907377490576196,
      "grad_norm": 0.29088717699050903,
      "learning_rate": 5e-05,
      "loss": 1.9814,
      "step": 7410
    },
    {
      "epoch": 0.45920840064620355,
      "grad_norm": 0.26697012782096863,
      "learning_rate": 5e-05,
      "loss": 2.3448,
      "step": 7411
    },
    {
      "epoch": 0.45934302638664515,
      "grad_norm": 0.2823542654514313,
      "learning_rate": 5e-05,
      "loss": 2.1723,
      "step": 7412
    },
    {
      "epoch": 0.4594776521270867,
      "grad_norm": 0.41817620396614075,
      "learning_rate": 5e-05,
      "loss": 2.7753,
      "step": 7413
    },
    {
      "epoch": 0.4596122778675283,
      "grad_norm": 0.31577375531196594,
      "learning_rate": 5e-05,
      "loss": 1.8591,
      "step": 7414
    },
    {
      "epoch": 0.4597469036079698,
      "grad_norm": 0.28730058670043945,
      "learning_rate": 5e-05,
      "loss": 2.1678,
      "step": 7415
    },
    {
      "epoch": 0.4598815293484114,
      "grad_norm": 0.30194076895713806,
      "learning_rate": 5e-05,
      "loss": 2.2996,
      "step": 7416
    },
    {
      "epoch": 0.46001615508885296,
      "grad_norm": 0.3188047707080841,
      "learning_rate": 5e-05,
      "loss": 2.1593,
      "step": 7417
    },
    {
      "epoch": 0.46015078082929456,
      "grad_norm": 0.34173914790153503,
      "learning_rate": 5e-05,
      "loss": 3.0008,
      "step": 7418
    },
    {
      "epoch": 0.46028540656973616,
      "grad_norm": 0.3228796422481537,
      "learning_rate": 5e-05,
      "loss": 2.5329,
      "step": 7419
    },
    {
      "epoch": 0.4604200323101777,
      "grad_norm": 0.27781808376312256,
      "learning_rate": 5e-05,
      "loss": 1.7964,
      "step": 7420
    },
    {
      "epoch": 0.4605546580506193,
      "grad_norm": 0.30784541368484497,
      "learning_rate": 5e-05,
      "loss": 2.2273,
      "step": 7421
    },
    {
      "epoch": 0.46068928379106083,
      "grad_norm": 0.29819363355636597,
      "learning_rate": 5e-05,
      "loss": 1.7621,
      "step": 7422
    },
    {
      "epoch": 0.46082390953150243,
      "grad_norm": 0.3446072041988373,
      "learning_rate": 5e-05,
      "loss": 2.3948,
      "step": 7423
    },
    {
      "epoch": 0.46095853527194397,
      "grad_norm": 0.2776590883731842,
      "learning_rate": 5e-05,
      "loss": 2.1307,
      "step": 7424
    },
    {
      "epoch": 0.46109316101238557,
      "grad_norm": 0.2780321538448334,
      "learning_rate": 5e-05,
      "loss": 1.9515,
      "step": 7425
    },
    {
      "epoch": 0.46122778675282716,
      "grad_norm": 0.2886502146720886,
      "learning_rate": 5e-05,
      "loss": 2.1698,
      "step": 7426
    },
    {
      "epoch": 0.4613624124932687,
      "grad_norm": 0.2862184941768646,
      "learning_rate": 5e-05,
      "loss": 2.0429,
      "step": 7427
    },
    {
      "epoch": 0.4614970382337103,
      "grad_norm": 0.2944214344024658,
      "learning_rate": 5e-05,
      "loss": 2.326,
      "step": 7428
    },
    {
      "epoch": 0.4614970382337103,
      "step": 7428,
      "total_flos": 1.1450254034057822e+19,
      "train_loss": 0.9640202868446972,
      "train_runtime": 65170.5857,
      "train_samples_per_second": 0.228,
      "train_steps_per_second": 0.114
    }
  ],
  "logging_steps": 1,
  "max_steps": 7428,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1450254034057822e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}